国产探花免费观看_亚洲丰满少妇自慰呻吟_97日韩有码在线_资源在线日韩欧美_一区二区精品毛片,辰东完美世界有声小说,欢乐颂第一季,yy玄幻小说排行榜完本

首頁 > 編程 > Python > 正文

Python讀大數據txt

2020-01-04 17:34:40
字體:
來源:轉載
供稿:網友
本文通過2個例子給大家介紹了如何使用python實現讀取大文件txt的方法,有需要的小伙伴可以參考下
 

如果直接對大文件對象調用 read() 方法,會導致不可預測的內存占用。好的方法是利用固定長度的緩沖區來不斷讀取文件內容。即通過yield。

    在用Python讀一個兩個多G的txt文本時,天真的直接用readlines方法,結果一運行內存就崩了。

    還好同事點撥了下,用yield方法,測試了下果然毫無壓力。咎其原因,原來是readlines是把文本內容全部放于內存中,而yield則是類似于生成器。

代碼如下:

def open_txt(file_name):  with open(file_name,'r+') as f:    while True:      line = f.readline()      if not line:        return      yield line.strip()

調用實例:

for text in open_txt('aa.txt'):  print text

例二:

目標 txt 文件大概有6G,想取出前面1000條數據保存于一個新的 txt 文件中做余下的操作,雖然不知道這樣做有沒有必要但還是先小數據量測試一下吧。參考這個帖子:我想把一個list列表保存到一個Txt文檔,該怎么保存 ,自己寫了一個簡單的小程序。
====================================================

import datetimeimport picklestart = datetime.datetime.now()print "start--%s" % (start)fileHandle = open ( 'train.txt' )file2 = open('s_train.txt','w') i = 1while ( i < 10000 ):  a = fileHandle.readline()  file2.write(''.join(a))   i = i + 1fileHandle.close() file2.close()print "done--%s" % ( datetime.datetime.now() - start)if __name__ == '__main__':  pass

====================================================
pickle 這個庫大家說的很多,官網看看,后面可以好好學習一下。


發表評論 共有條評論
用戶名: 密碼:
驗證碼: 匿名發表
主站蜘蛛池模板: 儋州市| 民乐县| 南充市| 天峨县| 怀集县| 刚察县| 舒兰市| 绥棱县| 蒙城县| 荥经县| 厦门市| 和顺县| 阳春市| 东城区| 大英县| 光泽县| 彭州市| 福建省| 永福县| 苏尼特左旗| 正镶白旗| 庄河市| 延津县| 宜兰市| 溧水县| 瓦房店市| 鲁甸县| 温州市| 临桂县| 东乡| 东乡县| 鄱阳县| 益阳市| 昭平县| 郑州市| 治县。| 湘阴县| 竹溪县| 垫江县| 大方县| 霍邱县|