国产探花免费观看_亚洲丰满少妇自慰呻吟_97日韩有码在线_资源在线日韩欧美_一区二区精品毛片,辰东完美世界有声小说,欢乐颂第一季,yy玄幻小说排行榜完本

首頁 > 編程 > Python > 正文

python使用jieba實現中文分詞去停用詞方法示例

2020-02-22 23:26:02
字體:
來源:轉載
供稿:網友

前言

jieba 基于Python的中文分詞工具,安裝使用非常方便,直接pip即可,2/3都可以,功能強悍,十分推薦。

中文分詞(Chinese Word Segmentation) 指的是將一個漢字序列切分成一個一個單獨的詞。

分詞模塊jieba,它是python比較好用的分詞模塊。待分詞的字符串可以是 unicode 或 UTF-8 字符串、GBK 字符串。注意:不建議直接輸入 GBK 字符串,可能無法預料地錯誤解碼成 UTF-8

支持三種分詞模式

      1 精確模式,試圖將句子最精確地切開,適合文本分析;

      2 全模式,把句子中所有的可以成詞的詞語都掃描出來, 速度非常快,但是不能解決歧義;

      3 搜索引擎模式,在精確模式的基礎上,對長詞再次切分,提高召回率,適合用于搜索引擎分詞。

# 精確模式 seg_list = jieba.cut("我去過清華大學和北京大學。")

# 全模式 seg_list = jieba.cut("我去過清華大學和北京大學。", cut_all=True)

# 搜索引擎模式 seg_list = jieba.cut_for_search("我去過清華大學和北京大學。")

#精確模式: 我/ 去過/ 清華大學/ 和/ 北京大學/ 。

#全模式: 我/ 去過/ 清華/ 清華大學/ 華大/ 大學/ 和/ 北京/ 北京大學/ 大學/ /

#搜索引擎模式: 我/ 去過/ 清華/ 華大/ 大學/ 清華大學/ 和/ 北京/ 大學/ 北京大學/

#coding=utf-8import jieba. analysestopwords=[]for word in open('stopwords.txt','r'): stopwords.append(word.strip())article=open('1.txt','r').read()words=jieba.cut(article,cut_all=False)stayed_line=""for word in words: if word.encode("utf-8")not in stopwords:  stayed_line+=word+" "print stayed_linew=open('2.txt','w')w.write(stayed_line.encode('utf-8'))

總結

以上就是這篇文章的全部內容了,希望本文的內容對大家的學習或者工作具有一定的參考學習價值,如果有疑問大家可以留言交流,謝謝大家對武林站長站的支持。

發表評論 共有條評論
用戶名: 密碼:
驗證碼: 匿名發表
主站蜘蛛池模板: 肃北| 苏尼特右旗| 安庆市| 武义县| 利津县| 宜州市| 彰武县| 松桃| 彭山县| 鄂托克旗| 兴业县| 长寿区| 涿州市| 土默特右旗| 屏东市| 伊宁县| 麻城市| 无为县| 同德县| 潮安县| 奉贤区| 普兰县| 时尚| 资溪县| 吴旗县| 清涧县| 紫云| 措勤县| 琼海市| 桐庐县| 新昌县| 丰宁| 浏阳市| 龙口市| 仁布县| 辉县市| 天门市| 吉安市| 河源市| 洛阳市| 漾濞|