pandas是python下最有力的數據挖掘和數據分析的工具之一,支持類似于SQL的數據庫的增、刪、查、改,并且帶有豐富的數據處理函數,支持時間序列的分析功能,支持靈活處理缺失數據。pandas基本的數據結構是Series和DataFrame,series就是序列,類似于一維數組,dataframe相當于一張二維的表格,類似于二維數組,它的每一列都相當于一個series,為了定位series中的元素,pandas提供了index對象,每個series都會帶有一個對應的index,用來標記不同的元素,index的內容不一定是數字,也可以是字母、中文等,類似于SQL的主鍵,類似的,dataframe相當于帶有多個同樣的index的series的組合(本質上是series的容器),每個series都帶有唯一的表頭,用來標識不同的series。
import pandas as pds = pd.Series([1, 2, 3], index=['a', 'b', 'c'])d = pd.DataFrame([[1, 2, 3], [4, 5, 6]], columns=['a', 'b', 'c'])d2 = pd.DataFrame(s)d.head()d.describe()PRint(d)print(d2)#pd.read_Excel('data.xls')#pd.read_csv('data.csv', encoding='utf-8')
新聞熱點
疑難解答