国产探花免费观看_亚洲丰满少妇自慰呻吟_97日韩有码在线_资源在线日韩欧美_一区二区精品毛片,辰东完美世界有声小说,欢乐颂第一季,yy玄幻小说排行榜完本

首頁 > 編程 > Python > 正文

TF-IDF與余弦相似性的應(yīng)用(一) 自動(dòng)提取關(guān)鍵詞

2020-02-16 11:14:23
字體:
供稿:網(wǎng)友

TF-IDF與余弦相似性的應(yīng)用(一):自動(dòng)提取關(guān)鍵詞

這個(gè)標(biāo)題看上去好像很復(fù)雜,其實(shí)我要談的是一個(gè)很簡單的問題。

有一篇很長的文章,我要用計(jì)算機(jī)提取它的關(guān)鍵詞(Automatic Keyphrase extraction),完全不加以人工干預(yù),請問怎樣才能正確做到?

這個(gè)問題涉及到數(shù)據(jù)挖掘、文本處理、信息檢索等很多計(jì)算機(jī)前沿領(lǐng)域,但是出乎意料的是,有一個(gè)非常簡單的經(jīng)典算法,可以給出令人相當(dāng)滿意的結(jié)果。它簡單到都不需要高等數(shù)學(xué),普通人只用10分鐘就可以理解,這就是我今天想要介紹的TF-IDF算法。

讓我們從一個(gè)實(shí)例開始講起。假定現(xiàn)在有一篇長文《中國的蜜蜂養(yǎng)殖》,我們準(zhǔn)備用計(jì)算機(jī)提取它的關(guān)鍵詞。

一個(gè)容易想到的思路,就是找到出現(xiàn)次數(shù)最多的詞。如果某個(gè)詞很重要,它應(yīng)該在這篇文章中多次出現(xiàn)。于是,我們進(jìn)行"詞頻"(Term Frequency,縮寫為TF)統(tǒng)計(jì)。

結(jié)果你肯定猜到了,出現(xiàn)次數(shù)最多的詞是----"的"、"是"、"在"----這一類最常用的詞。它們叫做"停用詞"(stop words),表示對找到結(jié)果毫無幫助、必須過濾掉的詞。

假設(shè)我們把它們都過濾掉了,只考慮剩下的有實(shí)際意義的詞。這樣又會(huì)遇到了另一個(gè)問題,我們可能發(fā)現(xiàn)"中國"、"蜜蜂"、"養(yǎng)殖"這三個(gè)詞的出現(xiàn)次數(shù)一樣多。這是不是意味著,作為關(guān)鍵詞,它們的重要性是一樣的?

顯然不是這樣。因?yàn)?中國"是很常見的詞,相對而言,"蜜蜂"和"養(yǎng)殖"不那么常見。如果這三個(gè)詞在一篇文章的出現(xiàn)次數(shù)一樣多,有理由認(rèn)為,"蜜蜂"和"養(yǎng)殖"的重要程度要大于"中國",也就是說,在關(guān)鍵詞排序上面,"蜜蜂"和"養(yǎng)殖"應(yīng)該排在"中國"的前面。

所以,我們需要一個(gè)重要性調(diào)整系數(shù),衡量一個(gè)詞是不是常見詞。如果某個(gè)詞比較少見,但是它在這篇文章中多次出現(xiàn),那么它很可能就反映了這篇文章的特性,正是我們所需要的關(guān)鍵詞。

用統(tǒng)計(jì)學(xué)語言表達(dá),就是在詞頻的基礎(chǔ)上,要對每個(gè)詞分配一個(gè)"重要性"權(quán)重。最常見的詞("的"、"是"、"在")給予最小的權(quán)重,較常見的詞("中國")給予較小的權(quán)重,較少見的詞("蜜蜂"、"養(yǎng)殖")給予較大的權(quán)重。這個(gè)權(quán)重叫做"逆文檔頻率"(Inverse Document Frequency,縮寫為IDF),它的大小與一個(gè)詞的常見程度成反比。

知道了"詞頻"(TF)和"逆文檔頻率"(IDF)以后,將這兩個(gè)值相乘,就得到了一個(gè)詞的TF-IDF值。某個(gè)詞對文章的重要性越高,它的TF-IDF值就越大。所以,排在最前面的幾個(gè)詞,就是這篇文章的關(guān)鍵詞。

下面就是這個(gè)算法的細(xì)節(jié)。

發(fā)表評論 共有條評論
用戶名: 密碼:
驗(yàn)證碼: 匿名發(fā)表
主站蜘蛛池模板: 繁昌县| 聂荣县| 六安市| 汝南县| 湟源县| 姚安县| 成都市| 中江县| 蕉岭县| 含山县| 东方市| 施甸县| 广灵县| 怀安县| 吐鲁番市| 灵石县| 旬阳县| 罗田县| 吴桥县| 犍为县| 勐海县| 开鲁县| 南京市| 汕尾市| 酒泉市| 隆林| 铁岭市| 安阳市| 扶沟县| 日土县| 鹤庆县| 即墨市| 林口县| 赞皇县| 花莲县| 淮滨县| 峨眉山市| 刚察县| 呈贡县| 库车县| 黄陵县|