国产探花免费观看_亚洲丰满少妇自慰呻吟_97日韩有码在线_资源在线日韩欧美_一区二区精品毛片,辰东完美世界有声小说,欢乐颂第一季,yy玄幻小说排行榜完本

首頁 > 學(xué)院 > 開發(fā)設(shè)計 > 正文

Lucene初探之?dāng)?shù)據(jù)格式詳情(二)

2019-11-08 18:21:49
字體:
供稿:網(wǎng)友

Lucene初探之?dāng)?shù)據(jù)格式詳情(二)

接上一篇Lucene初探之?dāng)?shù)據(jù)格式詳情(-)

補(bǔ)充一下Segment_N文件的具體格式:

DocStoreOffsetDocStoreSegmentDocStorelsCompoundFile Lucene中存儲域和詞向量有兩種方案。第一種是每個段單獨存儲自己的域和詞向量信息;第二種是多個段共享域和詞向量,把域和詞向量存儲到一個段里面去。如果DocStoreOffset值為-1,則該Segment段的后續(xù)正向相關(guān)信息的存儲采用第一種方案,即單獨存儲自己的域和詞向量信息;也就是說當(dāng)前segment的段名為A,則當(dāng)前索引目錄下便會有相應(yīng)的A.fdt,A.fdx,A.tvf,A.tvd,A.tvx文件等,DocStoreSegment和DocStoreCompoundFile則不存在;當(dāng)DocStoreOffset不為-1,則代表當(dāng)前段的信息存儲方案是第二種方案,即和其它段共享。此時,DocStoreOffset的值為當(dāng)前段的域和詞向量信息在共享段中的位置偏移量,而DocStoreSegment則存儲了共享存儲段的名稱,比如共享存儲段名為B,那么此段的信息將被存儲在B.fdt,B.fdx等文件中;IndexWrtier.flush(boolean triggerMerge, boolean flushDocStores, boolean flushDeletes),這個方法中的flushDocStores是用來設(shè)置是否采用共享存儲的方案,最終,其會落到DocumentsWriter.closeDocStore()方法,如果flushDocStores為false,則這個方法不被調(diào)用,那么下次再添加新的信息進(jìn)來的時候,由于上一次打開的DocumentsWriter還沒有被關(guān)閉掉,則本次添加的信息會寫入同上一次寫入的文件相同的段文件中。HasSingeNormFile 之前我們介紹過,在調(diào)用搜索引擎進(jìn)行搜索操作的時候,搜索引擎最終會對匹配到的文件進(jìn)行一次權(quán)重打分,其中標(biāo)準(zhǔn)化因子在打分的過程中發(fā)揮了很大的作用;不同的文檔的域都可以有自己的標(biāo)準(zhǔn)化因子,當(dāng)HasSingleNormFile的值為1的時候,所有的標(biāo)準(zhǔn)化因子都存在.nrm文件中,表示所有的文檔都以統(tǒng)一的標(biāo)準(zhǔn)化因子來打分;如果不為1,則每個段都可以在.fN文件中設(shè)置自己的標(biāo)準(zhǔn)化因子,其中N為版本號。NumField 域的數(shù)量;NormGen 是一個數(shù)組;如果每個域都有自己的標(biāo)準(zhǔn)化因子,則數(shù)組描述每個標(biāo)準(zhǔn)化因子文件的版本號;isCompoundFile 是否為復(fù)合文件,也就是將同一個段的所有文件保存在同一個文件中,減少每次打開段的時候打開文件的數(shù)量,其可以通過IndexWriter.setUserCompoundFile()來控制;DeletionCount 記錄了此段中被刪除文檔的數(shù)目;Hasprox 可為0、1,如果有詞頻需要被保存,則將其置為1;checkSum 此文件的segment_N的校驗和;

上面這些基本上是段的基本數(shù)據(jù)格式,下一篇我們?nèi)チ私庖幌掠虻南嚓P(guān)數(shù)據(jù)格式


發(fā)表評論 共有條評論
用戶名: 密碼:
驗證碼: 匿名發(fā)表
主站蜘蛛池模板: 潍坊市| 丰宁| 阿克| 手游| 绥阳县| 远安县| 沛县| 竹北市| 绥中县| 公安县| 永州市| 东平县| 紫金县| 农安县| 武定县| 枞阳县| 潜江市| 永城市| 凌源市| 海丰县| 靖州| 蓬莱市| 平罗县| 阜宁县| 三门峡市| 中阳县| 庆安县| 交口县| 突泉县| 武川县| 宁强县| 昌都县| 延安市| 陆河县| 义乌市| 方山县| 泽州县| 成安县| 台中市| 洛川县| 奉节县|