使用Python讀取大文件的方法

2020-01-04 15:51:40

字體：大中小

供稿：網(wǎng)友

背景

最近處理文本文檔時（文件約2GB大小），出現(xiàn)memoryError錯誤和文件讀取太慢的問題，后來找到了兩種比較快Large File Reading 的方法，本文將介紹這兩種讀取方法。

準備工作

　　我們談到“文本處理”時，我們通常是指處理的內(nèi)容。Python 將文本文件的內(nèi)容讀入可以操作的字符串變量非常容易。文件對象提供了三個“讀”方法： .read()、.readline() 和 .readlines()。每種方法可以接受一個變量以限制每次讀取的數(shù)據(jù)量，但它們通常不使用變量。 .read() 每次讀取整個文件，它通常用于將文件內(nèi)容放到一個字符串變量中。然而.read() 生成文件內(nèi)容最直接的字符串表示，但對于連續(xù)的面向行的處理，它卻是不必要的，并且如果文件大于可用內(nèi)存，則不可能實現(xiàn)這種處理。下面是read()方法示例：

try:f = open('/path/to/file', 'r')print f.read()finally:if f:f.close()

　　調(diào)用read()會一次性讀取文件的全部內(nèi)容，如果文件有10G，內(nèi)存就爆了，所以，要保險起見，可以反復調(diào)用read(size)方法，每次最多讀取size個字節(jié)的內(nèi)容。另外，調(diào)用readline()可以每次讀取一行內(nèi)容，調(diào)用readlines()一次讀取所有內(nèi)容并按行返回list。因此，要根據(jù)需要決定怎么調(diào)用。

　　如果文件很小，read()一次性讀取最方便；如果不能確定文件大小，反復調(diào)用read(size)比較保險；如果是配置文件，調(diào)用readlines()最方便：

for line in f.readlines():process(line) #

分塊讀取

處理大文件是很容易想到的就是將大文件分割成若干小文件處理，處理完每個小文件后釋放該部分內(nèi)存。這里用了iter 和 yield：

def read_in_chunks(filePath, chunk_size=1024*1024):"""Lazy function (generator) to read a file piece by piece.Default chunk size: 1MYou can set your own chunk size"""file_object = open(filePath)while True:chunk_data = file_object.read(chunk_size)if not chunk_data:breakyield chunk_dataif __name__ == "__main__":filePath = './path/filename'for chunk in read_in_chunks(filePath):process(chunk) # <do something with chunk>

使用With open()

with語句打開和關(guān)閉文件，包括拋出一個內(nèi)部塊異常。for line in f文件對象f視為一個迭代器，會自動的采用緩沖IO和內(nèi)存管理，所以你不必擔心大文件。

代碼如下：

#If the file is line basedwith open(...) as f:　　for line in f:　　　　process(line) # <do something with line>

優(yōu)化

面對百萬行的大型數(shù)據(jù)使用with open 是沒有問題的，但是這里面參數(shù)的不同也會導致不同的效率。經(jīng)過測試發(fā)先參數(shù)為"rb"時的效率是"r"的6倍。由此可知二進制讀取依然是最快的模式。

with open(filename,"rb") as f:   for fLine in f:   　　pass

測試結(jié)果：rb方式最快，100w行全遍歷2.9秒。基本能滿足中大型文件處理效率需求。如果從rb(二級制讀取)讀取改為r(讀取模式)，慢5-6倍。

結(jié)論

　　在使用python進行大文件讀取時，應該讓系統(tǒng)來處理，使用最簡單的方式，交給解釋器，就管好自己的工作就行了。同時根據(jù)不同的需求可以選擇不同的讀取參數(shù)進一步獲得更高的性能。

注：相關(guān)教程知識閱讀請移步到python教程頻道。

上一篇：python 接口測試response返回數(shù)據(jù)對比的方法

下一篇：python腳本作為Windows服務啟動代碼詳解

學習交流

解決內(nèi)存不足妙方

解決內(nèi)存不足妙方...

熱門圖片

猜你喜歡的新聞

猜你喜歡的關(guān)注

新聞熱點

雷軍2020新年全員信：“5G+AIoT”五年投500億

2020-01-03 21:43:53

春運售票超3億張！售票總量再創(chuàng)歷史新高

2020-01-03 20:41:46

Windows10市場份額全球第一微軟是否再無敵手？

2020-01-03 20:31:47

比爾蓋茨一次錯誤，付出2.8萬億的代價

2020-01-02 08:44:34

長江迎來最長禁漁期：十年禁漁，方才有魚

2020-01-02 08:28:02

快手封殺淘寶？回應：系統(tǒng)升級，淘寶商品暫無法審核

2020-01-01 22:50:39

疑難解答

圖片精選

網(wǎng)友關(guān)注

国产探花免费观看_亚洲丰满少妇自慰呻吟_97日韩有码在线_资源在线日韩欧美_一区二区精品毛片,辰东完美世界有声小说,欢乐颂第一季,yy玄幻小说排行榜完本

使用Python讀取大文件的方法