python中文分詞,使用結巴分詞對python進行分詞(實例講解)

2020-01-04 16:23:59

字體：大中小

來源：轉載

供稿：網友

在采集美女站時，需要對關鍵詞進行分詞，最終采用的是python的結巴分詞方法。

中文分詞是中文文本處理的一個基礎性工作，結巴分詞利用進行中文分詞。

其基本實現原理有三點：

1.基于Trie樹結構實現高效的詞圖掃描，生成句子中漢字所有可能成詞情況所構成的有向無環圖（DAG)

2.采用了動態規劃查找最大概率路徑, 找出基于詞頻的最大切分組合

3.對于未登錄詞，采用了基于漢字成詞能力的HMM模型，使用了Viterbi算法

安裝（Linux環境）

下載工具包，解壓后進入目錄下，運行：python setup.py install

python,結巴,中文分詞

模式

1.默認模式，試圖將句子最精確地切開，適合文本分析

2.全模式，把句子中所有的可以成詞的詞語都掃描出來，適合搜索引擎

接口

• 組件只提供jieba.cut 方法用于分詞

• cut方法接受兩個輸入參數：

• 第一個參數為需要分詞的字符串

• cut_all參數用來控制分詞模式

• 待分詞的字符串可以是gbk字符串、utf-8字符串或者unicode

• jieba.cut返回的結構是一個可迭代的generator，可以使用for循環來獲得分詞后得到的每一個詞語(unicode)，也可以用list(jieba.cut(...))轉化為list

• seg=jieba.cut("http://www.gg4493.cn/"):

實例

#! -*- coding:utf-8 -*-import jiebaseg_list = jieba.cut("我來到北京清華大學", cut_all = True)print "Full Mode:", ' '.join(seg_list)seg_list = jieba.cut("我來到北京清華大學")print "Default Mode:", ' '.join(seg_list)

結果

python,結巴,中文分詞

以上這篇python中文分詞,使用結巴分詞對python進行分詞(實例講解)就是小編分享給大家的全部內容了，希望能給大家一個參考，也希望大家多多支持VEVB武林網。

注：相關教程知識閱讀請移步到python教程頻道。

上一篇：TensorFlow在MAC環境下的安裝及環境搭建

下一篇：Python中import機制詳解

學習交流

解決內存不足妙方

解決內存不足妙方...

熱門圖片

猜你喜歡的新聞

猜你喜歡的關注

国产探花免费观看_亚洲丰满少妇自慰呻吟_97日韩有码在线_资源在线日韩欧美_一区二区精品毛片,辰东完美世界有声小说,欢乐颂第一季,yy玄幻小说排行榜完本

python中文分詞,使用結巴分詞對python進行分詞(實例講解)