pandas數據清洗,排序,索引設置,數據選取方法

2020-01-04 15:02:31

字體：大中小

來源：轉載

供稿：網友

此教程適合有pandas基礎的童鞋來看，很多知識點會一筆帶過，不做詳細解釋

Pandas數據格式

Series

DataFrame：每個column就是一個Series

基礎屬性shape,index,columns,values，dtypes，describe(),head(),tail()

統計屬性Series： count(),value_counts()，前者是統計總數，后者統計各自value的總數

df.isnull() df的空值為True

df.notnull() df的非空值為True

修改列名

df.rename(columns = {'key':'key2'},inplace=True)

更改數據格式astype()

isin     #計算一個“Series各值是否包含傳入的值序列中”的布爾數組unique    #返回唯一值的數組value_counts   #返回一個Series，其索引為唯一值，值為頻率，按計數降序排列

數據清洗

丟棄值drop()

df.drop(labels, axis=1)# 按列（axis=1），丟棄指定label的列,默認按行。。。

丟棄缺失值dropna()

# 默認axi=0（行）；1（列），how=‘any'df.dropna()#每行只要有空值，就將這行刪除df.dropna(axis=1)#每列只要有空值，整列丟棄df.dropna(how='all')# 一行中全部為NaN的，才丟棄該行df.dropna(thresh=3)# 每行至少3個非空值才保留

缺失值填充fillna()

df.fillna(0)df.fillna({1:0,2:0.5}) #對第一列nan值賦0，第二列賦值0.5df.fillna(method='ffill') #在列方向上以前一個值作為值賦給NaN

值替換replace()

# 將df的A列中 -999 全部替換成空值df['A'].replace(-999, np.nan)#-999和1000 均替換成空值obj.replace([-999,1000], np.nan)# -999替換成空值，1000替換成0obj.replace([-999,1000], [np.nan, 0])# 同上，寫法不同，更清晰obj.replace({-999:np.nan, 1000:0})

重復值處理duplicated()，unique()，drop_duplictad()

df.duplicated()#兩行每列完全一樣才算重復，后面重復的為True，第一個和不重復的為false，返回true    #和false組成的Series類型df.duplicated('key')#兩行key這一列一樣就算重復df['A'].unique()# 返回唯一值的數組（類型為array）df.drop_duplicates(['k1'])# 保留k1列中的唯一值的行，默認保留第一行df.drop_duplicates(['k1','k2'], take_last=True)# 保留 k1和k2 組合的唯一值的行，take_last=True 保留最后一行

排序

索引排序

# 默認axis=0，按行索引對行進行排序；ascending=True，升序排序df.sort_index()# 按列名對列進行排序，ascending=False 降序df.sort_index(axis=1, ascending=False)

值排序

# 按值對Series進行排序，使用order()，默認空值會置于尾部s = pd.Series([4, 6, np.nan, 2, np.nan])s.order()df.sort_values(by=['a','b'])#按列進行排序

排名

a=Series([7,-5,7,4,2,0,4])a.rank()#默認method='average'，升序排名（ascending=True），按行（axis=0）#average 值相等時，取排名的平均值#min 值相等時，取排名最小值#max 值相等時，取排名最大值#first值相等時，按原始數據出現順序排名

索引設置

reindex()

更新index或者columns，

默認：更新index，返回一個新的DataFrame

# 返回一個新的DataFrame，更新index，原來的index會被替代消失# 如果dataframe中某個索引值不存在，會自動補上NaNdf2 = df1.reindex(['a','b','c','d','e'])# fill_valuse為原先不存在的索引補上默認值，不在是NaNdf2 = df1.reindex(['a','b','c','d','e'], fill_value=0)# inplace=Ture，在DataFrame上修改數據，而不是返回一個新的DataFramedf1.reindex(['a','b','c','d','e'], inplace=Ture)# reindex不僅可以修改 索引(行)，也可以修改列states = ["Texas","Utah","California"]df2 = df1.reindex( columns=states )

set_index()

將DataFrame中的列columns設置成索引index

打造層次化索引的方法

# 將columns中的其中兩列：race和sex的值設置索引，race為一級，sex為二級# inplace=True 在原數據集上修改的adult.set_index(['race','sex'], inplace = True) # 默認情況下，設置成索引的列會從DataFrame中移除# drop=False將其保留下來adult.set_index(['race','sex'], inplace = True)

reset_index()

將使用set_index()打造的層次化逆向操作

既是取消層次化索引，將索引變回列，并補上最常規的數字索引

df.reset_index()

數據選取

[]

只能對行進行（row/index）切片，前閉后開df[0:3]，df[:4]，df[4:]

where 布爾查找

df[df["A"]>7]

isin

# 返回布爾值s.isin([1,2,3])df['A'].isin([1,2,3])df.loc[df['A'].isin([5.8,5.1])]選取列A中值為5.8，5.1的所有行組成dataframe

query

多個where整合切片，&：于，|：或　

df.query(" A>5.0 & (B>3.5 | C<1.0) ")

loc ：根據名稱Label切片

# df.loc[A,B] A是行范圍，B是列范圍df.loc[1:4,['petal_length','petal_width']]# 需求1：創建一個新的變量 test# 如果sepal_length > 3 test = 1 否則 test = 0df.loc[df['sepal_length'] > 6, 'test'] = 1df.loc[df['sepal_length'] <=6, 'test'] = 0# 需求2：創建一個新變量test2 # 1.petal_length>2 and petal_width>0.3 = 1 # 2.sepeal_length>6 and sepal_width>3 = 2 3.其他 = 0df['test2'] = 0df.loc[(df['petal_length']>2)&(df['petal_width']>0.3), 'test2'] = 1df.loc[(df['sepal_length']>6)&(df['sepal_width']>3), 'test2'] = 2

iloc：切位置

df.iloc[1:4,:]

ix：混切

名稱和位置混切，但效率低，少用

df1.ix[0:3,['sepal_length','petal_width']]

map與lambda

alist = [1,2,3,4]map(lambda s : s+1, alist)#map就是將自定義函數應用于Series每個元素df['sepal_length'].map(lambda s:s*2+1)[0:3]

apply和applymap

apply和applymap是對dataframe的操作，前者操作一行或者一列，后者操作每個元素These are techniques to apply function to element, column or dataframe.Map: It iterates over each element of a series. df[‘column1'].map(lambda x: 10+x), this will add 10 to each element of column1.df[‘column2'].map(lambda x: ‘AV'+x), this will concatenate “AV“ at the beginning of each element of column2 (column format is string).Apply: As the name suggests, applies a function along any axis of the DataFrame.df[[‘column1','column2']].apply(sum), it will returns the sum of all the values of column1 and column2.df0[['data1']].apply(lambda s:s+1)ApplyMap: 對dataframe的每一個元素施加一個函數func = lambda x: x+2df.applymap(func), dataframe每個元素加2 (所有列必須數字類型)

contains

# 使用DataFrame模糊篩選數據(類似SQL中的LIKE)# 使用正則表達式進行模糊匹配,*匹配0或無限次,?匹配0或1次df_obj[df_obj['套餐'].str.contains(r'.*?語音CDMA.*')] # 下面兩句效果一致df[df['商品名稱'].str.contains("四件套")]df[df['商品名稱'].str.contains(r".*四件套.*")]

以上這篇pandas數據清洗,排序,索引設置,數據選取方法就是小編分享給大家的全部內容了，希望能給大家一個參考，也希望大家多多支持VEVB武林網。

注：相關教程知識閱讀請移步到python教程頻道。

上一篇：pandas中去除指定字符的實例

下一篇：對pandas replace函數的使用方法小結