利用pandas進行大文件計數處理的方法

2020-02-15 22:31:15

字體：大中小

來源：轉載

供稿：網友

Pandas讀取大文件

要處理的是由探測器讀出的脈沖信號，一組數據為兩列，一列為時間，一列為脈沖能量，數據量在千萬級，為了有一個直接的認識，先使用Pandas讀取一些

import pandas as pddata = pd.read_table('filename.txt', iterator=True)chunk = data.get_chunk(5)

而輸出是這樣的：

Out[4]: 332.977889999979 -0.0164794921875 0 332.97790 -0.022278 1 332.97791 -0.026855 2 332.97792 -0.030518 3 332.97793 -0.045776 4 332.97794 -0.032654

DataFram基本用法

這里，data只是個容器，pandas.io.parsers.TextFileReader。

使用astype可以實現dataframe字段類型轉換

輸出數據中，每組數據會多處一行，因為get_chunk返回的是pandas.core.frame.DataFrame格式，而data在讀取過程中并沒有指定DataFrame的columns，因此在get_chunk過程中，默認將第一組數據作為columns。因此需要在讀取過程中指定names即DataFrame的columns。

import pandas as pddata = pd.read_table('filename.txt', iterator=True， names=['time', 'energe'])chunk = data.get_chunk(5) data['energe'] = df['energe'].astype('int')

輸出為

Out[6]:

index	time	energe
0	332.97789	-0.016479
1	332.97790	-0.022278
2	332.97791	-0.026855
3	332.97792	-0.030518
4	332.97793	-0.045776

DataFram存儲和索引

這里講一下DataFrame這個格式，與一般二維數據不同（二維列表等），DataFrame既有行索引又有列索引，因此在建立一個DataFrame數據是

DataFrame(data, columns=[‘year', ‘month', ‘day'], index=[‘one', ‘two', ‘three'])

	year	month	day
0	2010	4	1
1	2011	5	2
2	2012	6	3
3	2013	7	5
4	2014	8	9

而pd.read_table中的names就是指定DataFrame的columns,而index自動設置。而DataFrame的索引格式有很多

類型說明例子

obj[val]

選取單列或者一組列

上一篇：對pandas中Series的map函數詳解

下一篇：python 自動去除空行的實例

學習交流

如何重啟打印機打印服務

如何重啟打印機打印服務...

熱門圖片

猜你喜歡的新聞

猜你喜歡的關注

新聞熱點

明兮語文停止運營發展資金鏈斷裂

2020-02-16 09:52:44

2006年李俊編寫了“熊貓燒香”電腦病毒，現在過得怎么樣？

2020-02-15 15:53:44

谷歌合并Alphabet旗下子公司Jigsaw，未來會如何發展？

2020-02-11 22:02:38

NASA說今天地球引力最小能讓掃帚立起來？原因很簡單

2020-02-11 21:45:12

TCL集團宣布今日起正式更名為“TCL科技”

2020-02-07 10:36:18

黑莓曲終落，情懷價幾何？

2020-02-06 12:16:44

疑難解答

圖片精選

網友關注

主站蜘蛛池模板：化隆| 嘉禾县| 长治县| 玉树县| 万年县| 宁夏| 荥经县| 绍兴市| 江陵县| 咸丰县| 景宁| 涞水县| 凤庆县| 泰和县| 禹城市| 呼玛县| 合水县| 绥滨县| 永寿县| 利津县| 武山县| 城固县| 台湾省| 安乡县| 龙川县| 兴安县| 宁陕县| 射洪县| 峨眉山市| 尖扎县| 德化县| 舟山市| 鸡泽县| 米泉市| 中江县| 海城市| 苏尼特左旗| 崇文区| 神池县| 利川市| 明星|

国产探花免费观看_亚洲丰满少妇自慰呻吟_97日韩有码在线_资源在线日韩欧美_一区二区精品毛片,辰东完美世界有声小说,欢乐颂第一季,yy玄幻小说排行榜完本

利用pandas進行大文件計數處理的方法