国产探花免费观看_亚洲丰满少妇自慰呻吟_97日韩有码在线_资源在线日韩欧美_一区二区精品毛片,辰东完美世界有声小说,欢乐颂第一季,yy玄幻小说排行榜完本

首頁 > 網(wǎng)站 > 優(yōu)化推廣 > 正文

垂直搜索對信息更新的三個要求

2024-04-26 13:40:24
字體:
供稿:網(wǎng)友

垂直搜索對信息的更新有著非凡的要求,根據(jù)這些特點(diǎn)可以從以下幾點(diǎn)考慮:

1.信息源的穩(wěn)定性(不能讓信息源網(wǎng)站感覺到spider的壓力)

2.抓取的成本問題

3.對用戶體驗(yàn)改善程度。

根據(jù)以上幾點(diǎn)制定一種比較好的策略,要做到恰到好處。

策略上可以評估網(wǎng)站/網(wǎng)頁更新的系數(shù)、網(wǎng)站/網(wǎng)頁的重要系數(shù)、用戶點(diǎn)擊系數(shù)(或曝光系數(shù))、網(wǎng)站穩(wěn)定系數(shù)……,根據(jù)這些系數(shù)來確定對這些網(wǎng)站/網(wǎng)頁更新的頻率。再由于新信息和更新了的信息list頁面前面或者首頁,所以對網(wǎng)頁進(jìn)行很好的分級可以以低成本很好的解決更新問題,系數(shù)比較低的網(wǎng)頁一月update一次,稍微高點(diǎn)的一周update一次、中等的幾天到一天一次、高的幾小時到幾分鐘一次。類似搜索引擎的大庫、周庫、日庫,小時庫……

基于視覺網(wǎng)頁塊分析技術(shù),模擬IE瀏覽器的顯示方式,對網(wǎng)頁進(jìn)行解析。

根據(jù)人類視覺原理,把網(wǎng)頁解析處理的結(jié)果,進(jìn)行分塊,再根據(jù)需要,對這些塊進(jìn)行處理,如:采集定向、介紹抽取和一些必要的內(nèi)容的抽取正文抽取……

結(jié)構(gòu)化信息抽取技術(shù),將網(wǎng)頁中的非結(jié)構(gòu)化數(shù)據(jù)按照一定的需求抽取成結(jié)構(gòu)化數(shù)據(jù)。

有兩種方式,簡單的就是模板方式,另外就是對網(wǎng)頁不依靠web結(jié)構(gòu)化信息抽取方式,這兩種方式可以互取優(yōu)點(diǎn),以最簡單最有效的辦法滿足需求。垂直搜索引擎和通用搜索引擎最大的區(qū)別就是對網(wǎng)頁信息結(jié)構(gòu)化抽取后再結(jié)構(gòu)化數(shù)據(jù)進(jìn)行深度的處理,提供專業(yè)的搜索服務(wù)。所以web結(jié)構(gòu)化信息抽取的技術(shù)水平是決定垂直搜索引擎質(zhì)量的重要技術(shù)指標(biāo)。其實(shí)web結(jié)構(gòu)化信息抽取在百度、google早已經(jīng)廣泛應(yīng)用了,如:MP3、圖片搜索、google的本地搜索就是從網(wǎng)頁庫抽取出企業(yè)信息,添加到其地圖搜索中的,google通過這種技術(shù)正在顛覆做內(nèi)容的方式。同樣的技術(shù)應(yīng)用還在qihoo、sogou購物、shopping等各種應(yīng)用中體現(xiàn)。

簡單的語法分析,簡單的語法分析在搜索引擎中非常重要,可以通過簡單的語法分析來改善數(shù)據(jù)的質(zhì)量,低成本的獲得某類信息,改善排序,尋找需要的內(nèi)容……

信息處理技術(shù),信息處理包括的范圍比較廣

主要包括去重、聚類、分析……,這根據(jù)需要相關(guān)的技術(shù)就非常多。

  數(shù)據(jù)挖掘,找出您的信息的關(guān)聯(lián)性對于垂直搜索來說非常重要,有效,可以在這些相關(guān)性上為用戶提供更細(xì)致的服務(wù)。

分詞技術(shù),面向搜索的分詞技術(shù),建立和您的行業(yè)相關(guān)的詞庫。

注重這是面向搜索的分詞,不是面向識別和準(zhǔn)確的分詞。就這個工作安排十幾個人不停的維護(hù)也不會嫌多。

索引技術(shù),索引技術(shù)對于垂直搜索非常要害,一個網(wǎng)頁庫級的搜索引擎必須要支持分布索引、分層建庫、分布檢索、靈活的更新、靈活的權(quán)值調(diào)整、靈活的索引和靈活的升級擴(kuò)展、高可靠性穩(wěn)定性冗余性。還需要支持各種技術(shù)的擴(kuò)展,如偏移量計算等。

其它技術(shù),略。

垂直搜索引擎的技術(shù)評估應(yīng)從以下幾點(diǎn)來判定

  1. 全面性

  2. 更新性

  3.正確性

  4. 功能性

發(fā)表評論 共有條評論
用戶名: 密碼:
驗(yàn)證碼: 匿名發(fā)表
主站蜘蛛池模板: 绥江县| 高安市| 永平县| 高淳县| 鹿泉市| 农安县| 深州市| 黔西县| 清水河县| 那坡县| 海宁市| 安顺市| 玛曲县| 阿克苏市| 通辽市| 石泉县| 百色市| 兴国县| 永清县| 长垣县| 东兰县| 贡觉县| 五原县| 山西省| 原阳县| 瓦房店市| 泸西县| 贵德县| 隆德县| 收藏| 册亨县| 万盛区| 龙南县| 搜索| 洪江市| 信丰县| 木兰县| 新泰市| 金阳县| 乐山市| 桃源县|