国产探花免费观看_亚洲丰满少妇自慰呻吟_97日韩有码在线_资源在线日韩欧美_一区二区精品毛片,辰东完美世界有声小说,欢乐颂第一季,yy玄幻小说排行榜完本

首頁 > 編程 > Python > 正文

Python自然語言處理之詞干,詞形與最大匹配算法代碼詳解

2020-02-16 10:44:16
字體:
供稿:網(wǎng)友

本文主要對詞干提取及詞形還原以及最大匹配算法進(jìn)行了介紹和代碼示例,Python實現(xiàn),下面我們一起看看具體內(nèi)容。

自然語言處理中一個很重要的操作就是所謂的stemming和lemmatization,二者非常類似。它們是詞形規(guī)范化的兩類重要方式,都能夠達(dá)到有效歸并詞形的目的,二者既有聯(lián)系也有區(qū)別。

1、詞干提取(stemming)

定義:Stemmingistheprocessforreducinginflected(orsometimesderived)wordstotheirstem,baseorrootform—generallyawrittenwordform.

解釋一下,Stemming是抽取詞的詞干或詞根形式(不一定能夠表達(dá)完整語義)。

NLTK中提供了三種最常用的詞干提取器接口,即Porterstemmer,LancasterStemmer和SnowballStemmer。

PorterStemmer基于Porter詞干提取算法,來看例子

>>> from nltk.stem.porter import PorterStemmer >>> porter_stemmer = PorterStemmer() >>> porter_stemmer.stem(‘maximum') u'maximum' >>> porter_stemmer.stem(‘presumably') u'presum' >>> porter_stemmer.stem(‘multiply') u'multipli' >>> porter_stemmer.stem(‘provision') u'provis' >>> porter_stemmer.stem(‘owed') u'owe' 

Lancaster Stemmer 基于Lancaster 詞干提取算法,來看例子

>>> from nltk.stem.lancaster import LancasterStemmer >>> lancaster_stemmer = LancasterStemmer() >>> lancaster_stemmer.stem(‘maximum') ‘maxim' >>> lancaster_stemmer.stem(‘presumably') ‘presum' >>> lancaster_stemmer.stem(‘presumably') ‘presum' >>> lancaster_stemmer.stem(‘multiply') ‘multiply' >>> lancaster_stemmer.stem(‘provision') u'provid' >>> lancaster_stemmer.stem(‘owed') ‘ow' 

Snowball Stemmer基于Snowball 詞干提取算法,來看例子

>>> from nltk.stem import SnowballStemmer >>> snowball_stemmer = SnowballStemmer(“english”) >>> snowball_stemmer.stem(‘maximum') u'maximum' >>> snowball_stemmer.stem(‘presumably') u'presum' >>> snowball_stemmer.stem(‘multiply') u'multipli' >>> snowball_stemmer.stem(‘provision') u'provis' >>> snowball_stemmer.stem(‘owed') u'owe' 

2、詞形還原(lemmatization)

定義:Lemmatisation(orlemmatization)inlinguistics,istheprocessofgroupingtogetherthedifferentinflectedformsofawordsotheycanbeanalysedasasingleitem.

可見,Lemmatisation是把一個任何形式的語言詞匯還原為一般形式(能表達(dá)完整語義)。相對而言,詞干提取是簡單的輕量級的詞形歸并方式,最后獲得的結(jié)果為詞干,并不一定具有實際意義。詞形還原處理相對復(fù)雜,獲得結(jié)果為詞的原形,能夠承載一定意義,與詞干提取相比,更具有研究和應(yīng)用價值。

我們會在后面給出一個同MaxMatch算法相結(jié)合的更為復(fù)雜的例子。

發(fā)表評論 共有條評論
用戶名: 密碼:
驗證碼: 匿名發(fā)表
主站蜘蛛池模板: 包头市| 黎城县| 高青县| 博白县| 河东区| 卓资县| 固镇县| 麻阳| 汪清县| 延津县| 寻甸| 白山市| 当雄县| 涪陵区| 定南县| 依兰县| 宁强县| 岳阳市| 伽师县| 岳西县| 延川县| 嘉善县| 盐边县| 吴堡县| 咸阳市| 疏勒县| 刚察县| 旅游| 隆回县| 永州市| 巩义市| 富裕县| 防城港市| 九寨沟县| 岳西县| 北碚区| 昌邑市| 玉山县| 广德县| 余江县| 江城|