国产探花免费观看_亚洲丰满少妇自慰呻吟_97日韩有码在线_资源在线日韩欧美_一区二区精品毛片,辰东完美世界有声小说,欢乐颂第一季,yy玄幻小说排行榜完本

首頁 > 編程 > Python > 正文

使用python對文件中的單詞進(jìn)行提取的方法示例

2020-01-04 13:44:57
字體:
供稿:網(wǎng)友

由于需要使用一個純單詞組成的文件,在網(wǎng)上下載到了一個存放單詞的文件,但是里面有中文的解釋,那就需要做一下提取了。

文本的形式如下:

python,文件,單詞,提取

所見即所得,這個文本是有規(guī)律的,每個單詞為一行,緊接著下一行便是單詞的解釋,有了這種規(guī)律我們就很好處理了。

首先我們來將文件的數(shù)據(jù)讀取出來:

#coding:utf-8file_object = open('words.txt')try:   lines = file_object.readlines()finally:   file_object.close( )for line in lines:  print line

代碼執(zhí)行的結(jié)果為:

python,文件,單詞,提取         

顯然,這不是我們想要的結(jié)果,因?yàn)檫@里面有太多的空行了,現(xiàn)在最主要的就是要處理掉這些妨礙我們的空行,對于中文的亂碼呢,我們是不需要中文的解釋的,所以它是無妨礙的,如果想看得舒服些,那么我們就轉(zhuǎn)碼一下就好了。現(xiàn)在最主要的就是要知道為什么會出現(xiàn)這么多的空行,因?yàn)槲覀兊奈募且褜⒖催^了,顯然是這些空行的出現(xiàn)是有點(diǎn)“匪夷所思”的,這也是由于python讀文件的機(jī)制導(dǎo)致的,下面我們修改下代碼,來看看原因:

#coding:utf-8 file_object = open('words.txt')try:   lines = file_object.readlines()finally:   file_object.close( ) print lines

在這里,我們直接輸出lines,得到如下的結(jié)果:

python,文件,單詞,提取       

我們隨意拿出這句'runlet/n', 'n./xcd/xb0,/xd0/xa1/xba/xd3/n', '/n', 'runnel/n', 'n./xd0/xa1/xba/xd3,/xcf/xb8/xc1/xf7/n', '/n',從中可以看出,對于每行的文件,在讀取的時候,換行符“/n”也是會被讀取在單詞和對應(yīng)的解釋的后面的,所以這也就是為什么會有那么多空行的原因了,這顯然不是我們想要看見的,下面我們處理一下,讓這些多余的空行失去效果:

#coding:utf-8 file_object = open('words.txt')try:   lines = file_object.readlines()finally:   file_object.close( ) for line in lines:  if line!='/n':    print line.decode('gb2312','ignore'),  #逗號得帶著,因?yàn)槲募陨韼Я藫Q行,可以代替pirnt的換行

程序執(zhí)行后,得到如下的結(jié)果:

python,文件,單詞,提取

好了,這下就是我們想看到的東西了,那么,現(xiàn)在我們可以將這些輸出寫入 到新的文件里了,然后就可以得到我們想要的單詞文本了。

#coding:utf-8 file_object = open('words.txt')try:   lines = file_object.readlines()finally:   file_object.close( ) myfile=open('newfile.txt','w')num=0for word in lines:  if word!='/n':    num+=1    if num%2:  #只有奇數(shù)行為單詞      myfile.write(word)

運(yùn)行程序便可以得到新的單詞文件了,最終提取了45000多個單詞,文件如下所示:

python,文件,單詞,提取

很顯然,滿足我們最終想要實(shí)現(xiàn)的要求,那么可以收工了。

以上就是本文的全部內(nèi)容,希望對大家的學(xué)習(xí)有所幫助,也希望大家多多支持VEVB武林網(wǎng)。


注:相關(guān)教程知識閱讀請移步到python教程頻道。
發(fā)表評論 共有條評論
用戶名: 密碼:
驗(yàn)證碼: 匿名發(fā)表
主站蜘蛛池模板: 文安县| 正安县| 固镇县| 曲松县| 柳江县| 峨眉山市| 宜阳县| 青浦区| 新邵县| 皮山县| 曲周县| 铁岭市| 侯马市| 博白县| 平阴县| 绥中县| 江达县| 来凤县| 桦甸市| 驻马店市| 大足县| 郎溪县| 株洲市| 广东省| 静安区| 临桂县| 和政县| 固始县| 图木舒克市| 哈巴河县| 察哈| 大石桥市| 泰来县| 奈曼旗| 南皮县| 宽城| 巴彦淖尔市| 丹江口市| 阿坝县| 泾源县| 盐城市|