国产探花免费观看_亚洲丰满少妇自慰呻吟_97日韩有码在线_资源在线日韩欧美_一区二区精品毛片,辰东完美世界有声小说,欢乐颂第一季,yy玄幻小说排行榜完本

首頁 > 學院 > 開發設計 > 正文

Lucene擴展停用詞字典與自定義詞庫

2019-11-14 10:18:52
字體:
來源:轉載
供稿:網友

一、擴展停用詞字典

IK Analyzer默認的停用詞詞典為IKAnalyzer2012_u6/stopWord.dic,這個停用詞詞典并不完整,只有30多個英文停用詞。可以擴展停用詞字典,新增ext_stopword.dic,文件和IKAnalyzer.cfg.xml在同一目錄,編輯IKAnalyzer.cfg.xml把新增的停用詞字典寫入配置文件,多個停用詞字典用逗號隔開,如下所示。

<entry key="ext_stopwords">stopword.dic;ext_stopword.dic</entry>

二、擴展自定義詞庫

IK Analyzer也支持自定義詞典,在IKAnalyzer.cfg.xml同一目錄新建ext.dic,把新的詞語按行寫入文件,編輯IKAnalyzer.cfg.xml把新增的停用詞字典寫入配置文件,多個字典用空格隔開,如下所示:

<entry key="ext_dict">ext.dic;</entry>比如,對于網絡流行語“厲害了我的哥”,默認的詞庫中沒有這個詞,在自定義字典中寫入以后才能分成一個詞。

三、測試自定義詞典效果

import java.io.IOException;import java.io.StringReader;import org.apache.lucene.analysis.Analyzer;import org.apache.lucene.analysis.TokenStream;import org.apache.lucene.analysis.tokenattributes.CharTermAttribute;import tup.lucene.ik.IKAnalyzer6x;public class ExtDicTest { PRivate static String str = "厲害了我的哥!中國環保部門發布了治理北京霧霾的的方法!"; public static void main(String[] args) throws IOException { Analyzer analyzer = new IKAnalyzer6x(true); StringReader reader = new StringReader(str); TokenStream toStream = analyzer.tokenStream(str, reader); toStream.reset(); CharTermAttribute teAttribute= toStream.getAttribute(CharTermAttribut e.class); System.out.println("分詞結果:"); while (toStream.incrementToken()) { System.out.print(teAttribute.toString() + "|"); } System.out.println("/n"); analyzer.close(); }}

運行結果:

加載擴展詞典:ext.dic加載擴展停止詞典:stopword.dic分詞結果:厲|害了|的哥|中國|環保部門|發布|治理|北京|霧|霾|方法|

在ext.dic中添加自定義詞項:

中國環保部門北京霧霾厲害了我的哥

再次運行,結果如下:

加載擴展詞典:ext.dic加載擴展停止詞典:stopword.dic分詞結果:厲害了我的哥|中國環保部門|發布|治理|北京霧霾|方法|
發表評論 共有條評論
用戶名: 密碼:
驗證碼: 匿名發表
主站蜘蛛池模板: 孟津县| 定结县| 武汉市| 灵寿县| 新沂市| 天台县| 乌拉特中旗| 佛坪县| 漳州市| 山东| 靖西县| 伽师县| 城市| 体育| 全南县| 鹰潭市| 安图县| 蓝田县| 榆中县| 家居| 桂阳县| 杭锦旗| 白朗县| 四平市| 冷水江市| 舞阳县| 芒康县| 天镇县| 德阳市| 甘德县| 西乌珠穆沁旗| 县级市| 临湘市| 渝中区| 鄂尔多斯市| 孟津县| 孟津县| 新邵县| 郓城县| 恩施市| 普宁市|