pandas 對于數據分析的人員來說都是必須熟悉的第三方庫,pandas 在科學計算上有很大的優勢,特別是對于數據分析人員來說,相當的重要。python中有了Numpy ,但是Numpy 還是比較數學化,還需要有一種庫能夠更加具體的代表數據模型,我們都非常的清楚在數據處理中EXCEL 扮演著非常重要的作用,表格的模式是數據模型最好的一種展現形式。
pandas 是對表格數據模型在python上的模擬,它有簡單的像SQL 對數據的處理,能夠方便的在python上實現。
pandas 的安裝
pandas 在python上的安裝同樣的使用pip進行:
pip install pandas
pandas 創建對象
pandas 有兩種數據結構:Series 和 DataFrame 。
Series
Series 像python中的數據list 一樣,每個數據都有自己的索引。從list創建 Series。
>>> import pandas as pd>>> s1 = pd.Series([100,23,'bugingcode'])>>> s10 1001 232 bugingcodedtype: object>>>
在Series 中添加相應的索引:
>>> import numpy as np>>> ts = pd.Series(np.random.randn(365), index=np.arange(1,366))>>> ts
在index中設置索引值是一個從1到366的值。
Series 的數據結構最像的是python中的字典,從字典中創建Series:
sd = {'xiaoming':14,'tom':15,'john':13}s4 = pd.Series(sd)這時候可以看到Series 已經是自帶索引index。
pandas 本身跟 python的另外一個第三方庫Matplotlib 有很多的連接,Matplotlib 一個最經常用到的是用來展示數據的,如果還對Matplotlib 不了解的話,后面的章節會進行介紹,現在先拿過來直接用下,如果還沒有安裝的話,一樣的用pip命令安裝 pip install Matplotlib , 展示如下數據:
import pandas as pdimport numpy as npimport matplotlib.pyplot as pltts = pd.Series(np.random.randn(365), index=np.arange(1,366))ts.plot()plt.show()

一個不規則的圖形,在數據分析中,時間是一個重要的特性,因為很多數據都是跟時間是有關系的,銷售額跟時間有關系,天氣跟時間有關系。。。,在pandas 中也提供了關于時間的一些函數,使用date_range 生成一系列時間。
>>> pd.date_range('01/01/2017',periods=365)DatetimeIndex(['2017-01-01', '2017-01-02', '2017-01-03', '2017-01-04', '2017-01-05', '2017-01-06', '2017-01-07', '2017-01-08', '2017-01-09', '2017-01-10', ... '2017-12-22', '2017-12-23', '2017-12-24', '2017-12-25', '2017-12-26', '2017-12-27', '2017-12-28', '2017-12-29', '2017-12-30', '2017-12-31'], dtype='datetime64[ns]', length=365, freq='D')>>>
新聞熱點
疑難解答