安裝Python環境
ANACONDA是一個Python的發行版本,包含了400多個Python最常用的庫,其中就包括了數據分析中需要經常使用到的Numpy和Pandas等。更重要的是,不論在哪個平臺上,都可以一鍵安裝,自動配置好環境,不需要用戶任何的額外操作,非常方便。因此,安裝Python環境就只需要到ANACONDA網站上下載安裝文件,雙擊安裝即可。
ANACONDA官方下載地址:https://www.continuum.io/downloads
安裝完成之后,使用windows + r鍵打開Windows命令行,輸入ipython,然后回車:
Python 2.7.11 |Anaconda 2.5.0 (64-bit)| (default, Jan 29 2016, 14:26:21) [MSC v.1500 64 bit (AMD64)]Type "copyright", "credits" or "license" for more information.IPython 4.0.3 -- An enhanced Interactive Python.? -> Introduction and overview of IPython's features.%quickref -> Quick reference.help -> Python's own help system.object? -> Details about 'object', use 'object??' for extra details.
如上所示,如果成功進入了Python環境,則代表安裝成功。
使用pandas處理excel
在本文我以log.xls文件為例,來說明如何使用pandas處理excel文件。log.xls文件的內容如下所示:

可以看到log.xls中包含了多個的表(sheet),每個表主要包括了member和activity兩個屬性,相同的member ID的數據相鄰的排列在一起,并且最后一行是前面所有的匯總。這里,我們假設需要提取出每個member匯總的信息,即提取每個member連續出現的最后一行的數據。如何實現呢?
這里我們就來隆重介紹Pandas,,從https://pypi.python.org/pypi/pandas/0.16.2官方下載,cmd命令行進入下載解壓目錄,
python setup.py install
安裝。
(PS:python的大數據模塊pandas完全安裝完畢后還依賴于
• NumPy: 1.6.1 or higher
• python-dateutil 1.5
• pytz
這三個模塊也許要安裝。
可選擇依賴有(可以根據需要安裝)
• SciPy: miscellaneous statistical functions
• PyTables: necessary for HDF5-based storage
• SQLAlchemy: for SQL database support. Version 0.8.1 or higher recommended.
• matplotlib: for plotting
• statsmodels
主站蜘蛛池模板:
交城县|
南华县|
资溪县|
油尖旺区|
石城县|
漾濞|
喜德县|
三门峡市|
南宁市|
安达市|
新安县|
景洪市|
三亚市|
乐昌市|
宝兴县|
马龙县|
湖南省|
万荣县|
建瓯市|
阿巴嘎旗|
台湾省|
扶风县|
尚义县|
海南省|
巢湖市|
美姑县|
湟源县|
宁夏|
房产|
寿阳县|
南通市|
奈曼旗|
同德县|
眉山市|
汉源县|
晋州市|
郯城县|
北川|
陵川县|
沂源县|
灵川县|