SnowNLP是國人開發的python類庫,可以方便的處理中文文本內容,是受到了TextBlob的啟發而寫的,由于現在大部分的自然語言處理庫基本都是針對英文的,于是寫了一個方便處理中文的類庫,并且和TextBlob不同的是,這里沒有用NLTK,所有的算法都是自己實現的,并且自帶了一些訓練好的字典。注意本程序都是處理的unicode編碼,所以使用時請自行decode成unicode。MIT許可下發行。
其 github 主頁
我自己修改了上文鏈接中的python代碼并加入些許注釋,以方便你的理解:
from snownlp import SnowNLP# SnowNLP庫:# words:分詞# tags:關鍵詞# sentiments:情感度# pinyin:拼音# keywords(limit):關鍵詞# summary:關鍵句子# sentences:語序# tf:tf值# idf:idf值s = SnowNLP(u'這個東西真心很贊')# s.words # [u'這個', u'東西', u'真心', u'很', u'贊']print(s.words)s.tags # [(u'這個', u'r'), (u'東西', u'n'), (u'真心', u'd')# , (u'很', u'd'), (u'贊', u'Vg')]print(s.sentiments)# s.sentiments # 0.9769663402895832 positive的概率# s.pinyin # [u'zhe', u'ge', u'dong', u'xi', # u'zhen', u'xin', u'hen',# u'zan']4s = SnowNLP(u'「繁 主站蜘蛛池模板: 巫溪县| 霞浦县| 赫章县| 康保县| 东辽县| 科技| 邓州市| 福安市| 汶川县| 山阳县| 山阴县| 无锡市| 库尔勒市| 临海市| 东兰县| 普陀区| 额济纳旗| 古交市| 永新县| 平凉市| 图木舒克市| 布尔津县| 隆林| 延川县| 璧山县| 庄河市| 泸州市| 丘北县| 嵩明县| 岚皋县| 文山县| 合阳县| 天全县| 济南市| 莆田市| 伊宁市| 鄂尔多斯市| 色达县| 信阳市| 长寿区| 兴仁县|