国产探花免费观看_亚洲丰满少妇自慰呻吟_97日韩有码在线_资源在线日韩欧美_一区二区精品毛片,辰东完美世界有声小说,欢乐颂第一季,yy玄幻小说排行榜完本

首頁 > 網站 > 優化推廣 > 正文

搜索引擎的難點及工作原理

2024-04-26 13:22:26
字體:
來源:轉載
供稿:網友

  搜索引擎的難點包括如下幾點:

  1) 是否支持并發的爬取數據,如果要并發,要保證所有采集器能合作采集,不會出現重復采集的情況.

  2) 采集的數據還要有一個排重的過程. 只需要采集一個網站更新的數據

  3) 對于需要cookie數據的網頁如何采集的問題,部分網站需要通過cookie數據登陸網站

  4) 自動通過識別碼的驗證

  5) 一些網站對于密集訪問的請求會拒絕,技術上也要進行處理

  6) 對于一些特殊網頁的采集問題, 比如flash網頁,一些游戲網頁等,很多網站會讓采集程序陷入其中,采集數萬無效數據,顯然是浪費了采集程序的精力

  7) 大數據量的存儲也是個難點,據說google的存儲是自己開發的架構,沒用任何的數據庫,因為數據庫的查詢效率還是有一定損失. 可以采用數據塊的模式,然后通過散列表的模式連接.

  以上主要列出的是后臺采集器的相關技術難點,在前臺檢索、查詢效率等方面仍有許多難點.

  搜索引擎的工作原理大致可以分為:

  1、搜集信息:搜索引擎的信息搜集基本都是自動的。搜索引擎利用稱為網絡蜘蛛(spider)的自動搜索機器人程序來連上每一個網頁上的超連結。機器人程序根據網頁鏈到其他中的超鏈接,就象日常生活中所說的“一傳十,十傳百……”一樣,從少數幾個網頁開始,連到數據庫上所有到其他網頁的鏈接。理論上,若網頁上有適當的超連結,機器人便可以遍歷絕大部分網頁。

  2、整理信息:搜索引擎整理信息的過程稱為“建立索引”。搜索引擎不僅要保存搜集起來的信息,還要將它們按照一定的規則進行編排。這樣,搜索引擎根本不用重新翻查它所有保存的信息而迅速找到所要的資料。想象一下,如果信息是不按任何規則地隨意堆放在搜索引擎的數據庫中,那么它每次找資料都得把整個資料庫完全翻查一遍,如此一來再快的計算機系統也沒有用。

  3、接受查詢:用戶向搜索引擎發出查詢,搜索引擎接受查詢并向用戶返回資料。搜索引擎每時每刻都要接到來自大量用戶的幾乎是同時發出的查詢,它按照每個用戶的要求檢查自己的索引,在極短時間內找到用戶需要的資料,并返回給用戶。目前,搜索引擎返回主要是以網頁鏈接的形式提供的,這些通過這些鏈接,用戶便能到達含有自己所需資料的網頁。通常搜索引擎會在這些鏈接下提供一小段來自這些網頁的摘要信息以幫助用戶判斷此網頁是否含有自己需要的內容。

發表評論 共有條評論
用戶名: 密碼:
驗證碼: 匿名發表
主站蜘蛛池模板: 建阳市| 阜宁县| 高邑县| 新沂市| 海伦市| 邮箱| 苍梧县| 海伦市| 沙河市| 香格里拉县| 太原市| 丰台区| 临湘市| 东阳市| 新龙县| 石楼县| 田阳县| 博客| 北宁市| 广宁县| 安图县| 化隆| 黔南| 萝北县| 北安市| 夏河县| 聂荣县| 醴陵市| 遂溪县| 长丰县| 晋州市| 永靖县| 班玛县| 隆安县| 葵青区| 安达市| 枣阳市| 双桥区| 连平县| 霍州市| 台北县|