1 簡介
關(guān)鍵詞抽取就是從文本里面把跟這篇文檔意義最相關(guān)的一些詞抽取出來。這個(gè)可以追溯到文獻(xiàn)檢索初期,當(dāng)時(shí)還不支持全文搜索的時(shí)候,關(guān)鍵詞就可以作為搜索這篇論文的詞語。因此,目前依然可以在論文中看到關(guān)鍵詞這一項(xiàng)。
除了這些,關(guān)鍵詞還可以在文本聚類、分類、自動(dòng)摘要等領(lǐng)域中有著重要的作用。比如在聚類時(shí)將關(guān)鍵詞相似的幾篇文檔看成一個(gè)團(tuán)簇,可以大大提高聚類算法的收斂速度;從某天所有的新聞中提取出這些新聞的關(guān)鍵詞,就可以大致了解那天發(fā)生了什么事情;或者將某段時(shí)間內(nèi)幾個(gè)人的微博拼成一篇長文本,然后抽取關(guān)鍵詞就可以知道他們主要在討論什么話題。
總之,關(guān)鍵詞就是最能夠反映出文本主題或者意思的詞語。但是網(wǎng)絡(luò)上寫文章的人不會(huì)像寫論文那樣告訴你本文的關(guān)鍵詞是什么,這個(gè)時(shí)候就需要利用計(jì)算機(jī)自動(dòng)抽取出關(guān)鍵詞,算法的好壞直接決定了后續(xù)步驟的效果。
關(guān)鍵詞抽取從方法來說大致有兩種:
目前大多數(shù)領(lǐng)域無關(guān)的關(guān)鍵詞抽取算法(領(lǐng)域無關(guān)算法的意思就是無論什么主題或者領(lǐng)域的文本都可以抽取關(guān)鍵詞的算法)和它對(duì)應(yīng)的庫都是基于后者的。從邏輯上說,后者比前著在實(shí)際使用中更有意義。
從算法的角度來看,關(guān)鍵詞抽取算法主要有兩類:
jieba分詞系統(tǒng)中實(shí)現(xiàn)了兩種關(guān)鍵詞抽取算法,分別是基于TF-IDF關(guān)鍵詞抽取算法和基于TextRank關(guān)鍵詞抽取算法,兩類算法均是無監(jiān)督學(xué)習(xí)的算法,下面將會(huì)通過實(shí)例講解介紹如何使用jieba分詞的關(guān)鍵詞抽取接口以及通過源碼講解其實(shí)現(xiàn)的原理。
2 示例
下面將會(huì)依次介紹利用jieba分詞系統(tǒng)中的TF-IDF及TextRank接口抽取關(guān)鍵詞的過程。
2.1 基于TF-IDF算法進(jìn)行關(guān)鍵詞抽取
基于TF-IDF算法進(jìn)行關(guān)鍵詞抽取的示例代碼如下所示,
新聞熱點(diǎn)
疑難解答
圖片精選