国产探花免费观看_亚洲丰满少妇自慰呻吟_97日韩有码在线_资源在线日韩欧美_一区二区精品毛片,辰东完美世界有声小说,欢乐颂第一季,yy玄幻小说排行榜完本

首頁(yè) > 編程 > Python > 正文

Python用list或dict字段模式讀取文件的方法

2019-11-25 16:25:14
字體:
來(lái)源:轉(zhuǎn)載
供稿:網(wǎng)友

前言

Python用于處理文本數(shù)據(jù)絕對(duì)是個(gè)利器,極為簡(jiǎn)單的讀取、分割、過(guò)濾、轉(zhuǎn)換支持,使得開(kāi)發(fā)者不需要考慮繁雜的流文件處理過(guò)程(相對(duì)于JAVA來(lái)說(shuō)的,嘻嘻)。博主自己工作中,一些復(fù)雜的文本數(shù)據(jù)處理計(jì)算,包括在HADOOP上編寫Streaming程序,均是用Python完成。

而在文本處理的過(guò)程中,將文件加載內(nèi)存中是第一步,這就涉及到怎樣將文件中的某一列映射到具體的變量的過(guò)程,最最愚笨的方法,就是按照字段的下標(biāo)進(jìn)行引用,比如這樣子:

# fields是讀取了一行,并且按照分隔符分割之后的列表user_id = fields[0]user_name = fields[1]user_type = fields[2]

如果按照這種方式讀取,一旦文件有順序、增減列的變動(dòng),代碼的維護(hù)是個(gè)噩夢(mèng),這種代碼一定要杜絕。

本文推薦兩種優(yōu)雅的方式來(lái)讀取數(shù)據(jù),都是先配置字段模式,然后按照模式讀取,而模式則有字典模式和列表模式兩種形式;

讀取文件,按照分隔符分割成字段數(shù)據(jù)列表

首先讀取文件,按照分隔符分割每一行的數(shù)據(jù),返回字段列表,以便后續(xù)處理。

代碼如下:

def read_file_data(filepath): '''根據(jù)路徑按行讀取文件, 參數(shù)filepath:文件的絕對(duì)路徑 @param filepath: 讀取文件的路徑 @return: 按/t分割后的每行的數(shù)據(jù)列表 ''' fin = open(filepath, 'r') for line in fin:  try:   line = line[:-1]   if not line: continue  except:   continue    try:   fields = line.split("/t")  except:   continue  # 拋出當(dāng)前行的分割列表  yield fields fin.close()

使用yield關(guān)鍵字,每次拋出單個(gè)行的分割數(shù)據(jù),這樣在調(diào)度程序中可以用for fields in read_file_data(fpath)的方式讀取每一行。

映射到模型之方法1:使用配置好的字典模式,裝配讀取的數(shù)據(jù)列表

這種方法配置一個(gè){“字段名”: 字段位置}的字典作為數(shù)據(jù)模式,然后按照該模式裝配讀取的列表數(shù)據(jù),最后實(shí)現(xiàn)用字典的方式訪問(wèn)數(shù)據(jù)。

所使用的函數(shù):

@staticmethoddef map_fields_dict_schema(fields, dict_schema): """根據(jù)字段的模式,返回模式和數(shù)據(jù)值的對(duì)應(yīng)值;例如 fields為['a','b','c'],schema為{'name':0, 'age':1},那么就返回{'name':'a','age':'b'} @param fields: 包含有數(shù)據(jù)的數(shù)組,一般是通過(guò)對(duì)一個(gè)Line String通過(guò)按照/t分割得到 @param dict_schema: 一個(gè)詞典,key是字段名稱,value是字段的位置; @return: 詞典,key是字段名稱,value是字段值 """ pdict = {} for fstr, findex in dict_schema.iteritems():  pdict[fstr] = str(fields[int(findex)]) return pdict

有了該方法和之前的方法,可以用以下的方式讀取數(shù)據(jù):

# coding:utf8"""@author: www.crazyant.net測(cè)試使用字典模式加載數(shù)據(jù)列表優(yōu)點(diǎn):對(duì)于多列文件,只通過(guò)配置需要讀取的字段,就能讀取對(duì)應(yīng)列的數(shù)據(jù)缺點(diǎn):如果字段較多,每個(gè)字段的位置配置,較為麻煩"""import file_utilimport pprint # 配置好的要讀取的字典模式,可以只配置自己關(guān)心的列的位置dict_schema = {"userid":0, "username":1, "usertype":2}for fields in file_util.FileUtil.read_file_data("userfile.txt"): # 將字段列表,按照字典模式進(jìn)行映射 dict_fields = file_util.FileUtil.map_fields_dict_schema(fields, dict_schema) pprint.pprint(dict_fields)

輸出結(jié)果:

{'userid': '1', 'username': 'name1', 'usertype': '0'}{'userid': '2', 'username': 'name2', 'usertype': '1'}{'userid': '3', 'username': 'name3', 'usertype': '2'}{'userid': '4', 'username': 'name4', 'usertype': '3'}{'userid': '5', 'username': 'name5', 'usertype': '4'}{'userid': '6', 'username': 'name6', 'usertype': '5'}{'userid': '7', 'username': 'name7', 'usertype': '6'}{'userid': '8', 'username': 'name8', 'usertype': '7'}{'userid': '9', 'username': 'name9', 'usertype': '8'}{'userid': '10', 'username': 'name10', 'usertype': '9'}{'userid': '11', 'username': 'name11', 'usertype': '10'}{'userid': '12', 'username': 'name12', 'usertype': '11'}

映射到模型之方法2:使用配置好的列表模式,裝配讀取的數(shù)據(jù)列表

如果需要讀取文件所有列,或者前面的一些列,那么配置字典模式優(yōu)點(diǎn)復(fù)雜,因?yàn)樾枰o每個(gè)字段配置索引位置,并且這些位置是從0開(kāi)始完后數(shù)的,屬于低級(jí)勞動(dòng),需要消滅。

列表模式應(yīng)命運(yùn)而生,先將配置好的列表模式轉(zhuǎn)換成字典模式,然后按字典加載就可以實(shí)現(xiàn)。

轉(zhuǎn)換模式,以及用按列表模式讀取的代碼:

@staticmethoddef transform_list_to_dict(para_list): """把['a', 'b']轉(zhuǎn)換成{'a':0, 'b':1}的形式 @param para_list: 列表,里面是每個(gè)列對(duì)應(yīng)的字段名 @return: 字典,里面是字段名和位置的映射 """ res_dict = {} idx = 0 while idx < len(para_list):  res_dict[str(para_list[idx]).strip()] = idx  idx += 1 return res_dict @staticmethoddef map_fields_list_schema(fields, list_schema): """根據(jù)字段的模式,返回模式和數(shù)據(jù)值的對(duì)應(yīng)值;例如 fields為['a','b','c'],schema為{'name', 'age'},那么就返回{'name':'a','age':'b'} @param fields: 包含有數(shù)據(jù)的數(shù)組,一般是通過(guò)對(duì)一個(gè)Line String通過(guò)按照/t分割得到 @param list_schema: 列名稱的列表list @return: 詞典,key是字段名稱,value是字段值 """ dict_schema = FileUtil.transform_list_to_dict(list_schema) return FileUtil.map_fields_dict_schema(fields, dict_schema)

使用的時(shí)候,可以用列表的形式配置模式,不需要配置索引更加簡(jiǎn)潔:

# coding:utf8"""@author: www.crazyant.net測(cè)試使用列表模式加載數(shù)據(jù)列表優(yōu)點(diǎn):如果讀取所有列,用列表模式只需要按順序?qū)懗龈鱾€(gè)列的字段名就可以缺點(diǎn):不能夠只讀取關(guān)心的字段,需要全部讀取"""import file_utilimport pprint # 配置好的要讀取的列表模式,只能配置前面的列,或者所有咧list_schema = ["userid", "username", "usertype"]for fields in file_util.FileUtil.read_file_data("userfile.txt"): # 將字段列表,按照字典模式進(jìn)行映射 dict_fields = file_util.FileUtil.map_fields_list_schema(fields, list_schema) pprint.pprint(dict_fields) 

運(yùn)行結(jié)果和字典模式的完全一樣。

file_util.py全部代碼

以下是file_util.py中的全部代碼,可以放在自己的公用類庫(kù)中使用

# -*- encoding:utf8 -*-'''@author: www.crazyant.net@version: 2014-12-5''' class FileUtil(object): '''文件、路徑常用操作方法 ''' @staticmethod def read_file_data(filepath):  '''根據(jù)路徑按行讀取文件, 參數(shù)filepath:文件的絕對(duì)路徑  @param filepath: 讀取文件的路徑  @return: 按/t分割后的每行的數(shù)據(jù)列表  '''  fin = open(filepath, 'r')  for line in fin:   try:    line = line[:-1]    if not line: continue   except:    continue      try:    fields = line.split("/t")   except:    continue   # 拋出當(dāng)前行的分割列表   yield fields  fin.close()  @staticmethod def transform_list_to_dict(para_list):  """把['a', 'b']轉(zhuǎn)換成{'a':0, 'b':1}的形式  @param para_list: 列表,里面是每個(gè)列對(duì)應(yīng)的字段名  @return: 字典,里面是字段名和位置的映射  """  res_dict = {}  idx = 0  while idx < len(para_list):   res_dict[str(para_list[idx]).strip()] = idx   idx += 1  return res_dict  @staticmethod def map_fields_list_schema(fields, list_schema):  """根據(jù)字段的模式,返回模式和數(shù)據(jù)值的對(duì)應(yīng)值;例如 fields為['a','b','c'],schema為{'name', 'age'},那么就返回{'name':'a','age':'b'}  @param fields: 包含有數(shù)據(jù)的數(shù)組,一般是通過(guò)對(duì)一個(gè)Line String通過(guò)按照/t分割得到  @param list_schema: 列名稱的列表list  @return: 詞典,key是字段名稱,value是字段值  """  dict_schema = FileUtil.transform_list_to_dict(list_schema)  return FileUtil.map_fields_dict_schema(fields, dict_schema) @staticmethoddef map_fields_dict_schema(fields, dict_schema): """根據(jù)字段的模式,返回模式和數(shù)據(jù)值的對(duì)應(yīng)值;例如 fields為['a','b','c'],schema為{'name':0, 'age':1},那么就返回{'name':'a','age':'b'} @param fields: 包含有數(shù)據(jù)的數(shù)組,一般是通過(guò)對(duì)一個(gè)Line String通過(guò)按照/t分割得到 @param dict_schema: 一個(gè)詞典,key是字段名稱,value是字段的位置; @return: 詞典,key是字段名稱,value是字段值 """ pdict = {} for fstr, findex in dict_schema.iteritems():  pdict[fstr] = str(fields[int(findex)]) return pdict

總結(jié)

以上就是這篇文章的全部?jī)?nèi)容了,希望本文的內(nèi)容對(duì)大家學(xué)習(xí)或者使用python能有一定的幫助,如果有疑問(wèn)大家可以留言交流。

發(fā)表評(píng)論 共有條評(píng)論
用戶名: 密碼:
驗(yàn)證碼: 匿名發(fā)表
主站蜘蛛池模板: 张北县| 舒兰市| 长汀县| 陆川县| 渝中区| 洛宁县| 游戏| 三明市| 织金县| 繁峙县| 高青县| 大邑县| 城步| 唐海县| 嵊州市| 阜宁县| 扎兰屯市| 皋兰县| 宜州市| 农安县| 涟水县| 绥阳县| 霸州市| 德庆县| 民勤县| 宁武县| 石景山区| 南召县| 莱阳市| 揭阳市| 三亚市| 五大连池市| 南部县| 湖州市| 西畴县| 寻乌县| 汨罗市| 仁寿县| 汝州市| 扎兰屯市| 临猗县|