国产探花免费观看_亚洲丰满少妇自慰呻吟_97日韩有码在线_资源在线日韩欧美_一区二区精品毛片,辰东完美世界有声小说,欢乐颂第一季,yy玄幻小说排行榜完本

首頁 > 學院 > 網絡通信 > 正文

揭開神秘面紗,搜索引擎原理淺析

2019-11-04 12:15:37
字體:
來源:轉載
供稿:網友
  在浩如煙海的Internet上,非凡是其上的Web(World Wide Web萬維網)上,不會搜索,就不會上網。網蟲朋友們,你了解搜索引擎嗎?它們是怎么工作的?你都使用哪些搜索引擎?今天我就和大家聊聊搜索引擎的話題。

  一、搜索引擎的分類

  獲得網站網頁資料,能夠建立數(shù)據(jù)庫并提供查詢的系統(tǒng),我們都可以把它叫做搜索引擎。按照工作原理的不同,可以把它們分為兩個基本類別:全文搜索引擎(FullText Search Engine)和分類目錄Directory)。

  全文搜索引擎的數(shù)據(jù)庫是依靠一個叫“網絡機器人(Spider)”或叫“網絡蜘蛛(crawlers)”的軟件,通過網絡上的各種鏈接自動獲取大量網頁信息內容,并按以定的規(guī)則分析整理形成的。Google、百度都是比較典型的全文搜索引擎系統(tǒng)。

  分類目錄則是通過人工的方式收集整理網站資料形成數(shù)據(jù)庫的,比如雅虎中國以及國內的搜狐、新浪、網易分類目錄。另外,在網上的一些導航站點,也可以歸屬為原始的分類目錄,比如“網址之家”(http://www.hao123.com/)。

  全文搜索引擎和分類目錄在使用上各有長短。全文搜索引擎因為依靠軟件進行,所以數(shù)據(jù)庫的容量非常龐大,但是,它的查詢結果往往不夠準確;分類目錄依靠人工收集和整理網站,能夠提供更為準確的查詢結果,但收集的內容卻非常有限。為了取長補短,現(xiàn)在的很多搜索引擎,都同時提供這兩類查詢,一般對全文搜索引擎的查詢稱為搜索“所有網站”或“全部網站”,比如Google的全文搜索(http://www.google.com/intl/zh-CN/);把對分類目錄的查詢稱為搜索“分類目錄”或搜索“分類網站”,比如新浪搜索(http://dir.sina.com.cn/)和雅虎中國搜索(http://cn.search.yahoo.com/dirsrch/)。

  在網上,對這兩類搜索引擎進行整合,還產生了其它的搜索服務,在這里,我們權且也把它們稱作搜索引擎,主要有這兩類:

  ⒈元搜索引擎(META Search Engine)。這類搜索引擎一般都沒有自己網絡機器人及數(shù)據(jù)庫,它們的搜索結果是通過調用、控制和優(yōu)化其它多個獨立搜索引擎的搜索結果并以統(tǒng)一的格式在同一界面集中顯示。元搜索引擎雖沒有“網絡機器人”或“網絡蜘蛛”,也無獨立的索引數(shù)據(jù)庫,但在檢索請求提交、檢索接口代理和檢索結果顯示等方面,均有自己研發(fā)的特色元搜索技術。比如“metaFisher元搜索引擎”
(http://www.hsfz.net/fish/),它就調用和整合了Google、Yahoo、AlltheWeb、百度和OpenFind等多家搜索引擎的數(shù)據(jù)。

 ?、布伤阉饕妫ˋll-in-One Search Page)。集成搜索引擎是通過網絡技術,在一個網頁上鏈接很多個獨立搜索引擎,查詢時,點選或指定搜索引擎,一次輸入,多個搜索引擎同時查詢,搜索結果由各搜索引擎分別以不同頁面顯示,比如“網際瑞士軍刀”(http://free.okey.net/%7Efree/search1.htm)。

  二、搜索引擎的工作原理

  全文搜索引擎的“網絡機器人”或“網絡蜘蛛”是一種網絡上的軟件,它遍歷Web空間,能夠掃描一定ip地址范圍內的網站,并沿著網絡上的鏈接從一個網頁到另一個網頁,從一個網站到另一個網站采集網頁資料。它為保證采集的資料最新,還會回訪已抓取過的網頁。網絡機器人或網絡蜘蛛采集的網頁,還要有其它程序進行分析,根據(jù)一定的相關度算法進行大量的計算建立網頁索引,才能添加到索引數(shù)據(jù)庫中。我們平時看到的全文搜索引擎,實際上只是一個搜索引擎系統(tǒng)的檢索界面,當你輸入要害詞進行查詢時,搜索引擎會從龐大的數(shù)據(jù)庫中找到符合該要害詞的所有相關網頁的索引,并按一定的排名規(guī)則呈現(xiàn)給我們。不同的搜索引擎,網頁索引數(shù)據(jù)庫不同,排名規(guī)則也不盡相同,所以,當我們以同一要害詞用不同的搜索引擎查詢時,搜索結果也就不盡相同。




  和全文搜索引擎一樣,分類目錄的整個工作過程也同樣分為收集信息、分析信息和查詢信息三部分,只不過分類目錄的收集、分析信息兩部分主要依靠人工完成。分類目錄一般都有專門的編輯人員,負責收集網站的信息。隨著收錄站點的增多,現(xiàn)在一般都是由站點治理者遞交自己的網站信息給分類目錄,然后由分類目錄的編輯人員審核遞交的網站,以決定是否收錄該站點。假如該站點審核通過,分類目錄的編輯人員還需要分析該站點的內容,并將該站點放在相應的類別和目錄中。所有這些收錄的站點同樣被存放在一個“索引數(shù)據(jù)庫”中。用戶在查詢信息時,可以選擇按照要害詞搜索,也可按分類目錄逐層查找。如以要害詞搜索,返回的結果跟全文搜索引擎一樣,也是根據(jù)信息關聯(lián)程度排列網站。需要注重的是,分類目錄的要害詞查詢只能在網站的名稱、網址、簡介等內容中進行,它的查詢結果也只是被收錄網站首頁的URL地址,而不是具體的頁面。分類目錄就像一個電話號碼薄一樣,按照各個網站的性質,把其網址分門別類排在一起,大類下面套著小類,一直到各個網站的具體地址,一般還會提供各個網站的內容簡介,用戶不使用要害詞也可進行查詢,只要找到相關目錄,就完全可以找到相關的網站(注重:是相關的網站,而不是這個網站上某個網頁的內容,某一目錄中網站的排名一般是按照標題字母的先后順序或者收錄的時間順序決定的)。


  三、搜索引擎的發(fā)展趨勢。

  一個好的搜索引擎,不僅數(shù)據(jù)庫容量要大,更新頻率、檢索速度要快,支持對多語言的搜索,而且隨著數(shù)據(jù)庫容量的不斷膨脹,還要能從龐大的資料庫中精確地找到正確的資料。

  ⒈提高搜索引擎對用戶檢索提問的理解。為了提高搜索引擎對用戶檢索提問的理解,就必須有一個好的檢索提問語言。為了克服要害詞檢索和目錄查詢的缺點,現(xiàn)在已經出現(xiàn)了自然語言智能答詢。用戶可以輸入簡單的疑問句,比如“如何能殺死計算機中的病毒”,搜索引擎在對提問進行結構和內容的分析之后,或直接給出提問的答案,或引導用戶從幾個可選擇的問題中進行再選擇。自然語言的優(yōu)勢在于,一是使網絡交流更加人性化,二是使查詢變得更加方便、直接、有效。就以上面的例子來講,假如用要害詞查詢,多半人會用“病毒”這個詞來檢索,結果中必然會包括各類病毒的介紹,病毒是怎樣產生的等等許多無用信息,而用“如何能殺死計算機中的病毒”檢索,搜索引擎會將怎樣殺死病毒的信息提供給用戶,提高了檢索效率。

 ?、泊怪敝黝}搜索引擎有著極大的發(fā)展空間。網上的信息浩如煙海,網絡資源以驚人的速度增長,一個搜索引擎很難收集全所有主題的網絡信息,即使信息主題收集得比較全面,由于主題范圍太寬,很難將各主題都做得精確而又專業(yè),使得檢索結果垃圾太多。這樣以來,垂直主題的搜索引擎以其高度的目標化和專業(yè)化在各類搜索引擎中占據(jù)了一席之地。目前,一些主要的搜索引擎,都提供了新聞、mp3、圖片、Flash等的搜
索,加強了檢索的針對性。

 ?、吃阉饕?,能夠提供全面且較為準確的查詢結果。現(xiàn)在的許多搜索引擎,其收集信息的范圍、索引方法、排名規(guī)則等都各不相同,每個搜索引擎平均只能涉及到整個Web資源的30-50%,這樣導致同一個搜索請求在不同搜索引擎中獲得的查詢結果的重復率不足34%,而每一個搜索引擎的查準率不到45%。元搜索引擎(META Search Engine)是將用戶提交的檢索請求發(fā)送到多個獨立的搜索引擎上去搜索,并將檢索結果集中統(tǒng)一處理,以統(tǒng)一的格式提供給用戶,因此有搜索引擎之上的搜索引擎之稱。它的主要精力放在提高搜索速度、智能化處理搜索結果、個性化搜索功能的設置和用戶檢索界面的友好性上,查全率和查準率都比較高。




  四、主要的搜索引擎介紹

  這里介紹的是在國內外影響比較大的主要的一些搜索引擎和分類目錄站點,由于現(xiàn)在的站點一般都同時提供全文搜索和分類目錄兩種服務,所以我們按照其自有的技術進行分類和介紹。

 ?、逯饕娜乃阉饕?br>
 ?、盙oogle(http://www.google.com/)。Google成立于1997年,幾年間迅速發(fā)展成為世界范圍內規(guī)模最大的搜索引擎。Google數(shù)據(jù)庫現(xiàn)存有42.8億個Web文件,天天處理的搜索請求已達2億次,而且這一數(shù)字還在不斷增長。Google借用Dmoz(http://dmoz.org/)的分類目錄提供“網頁目錄”查詢(http://www.google.com/dirhp?hl=zh-CN&tab=wd&ie=UTF-8&oe=UTF-8&q=),但默認網站排列順序并非按照字母順序,而是根據(jù)網站PageRank的分值高低排列。

  ⒉百度(http://www.baidu.com/)。百度是國內最早的商業(yè)化(早期為其它門戶網站提供搜索服務,現(xiàn)在的競價排名更是日進斗金)全文搜索引擎,擁有自己的網絡機器人和索引數(shù)據(jù)庫,專注于中文的搜索引擎市場,除有網頁搜索外,百度還有新聞、MP3、圖片等搜索,并在2003年底推出“貼吧”、按地域搜索等功能。

 ?、持袊阉鳎╤ttp://www.huicong.com/)。中國搜索的前身是慧聰搜索,原慧聰搜索在聯(lián)合中國網等30多家知名網站的基礎上,2002年9月25日,正式組建了中國搜索聯(lián)盟,經過一年多的發(fā)展,聯(lián)盟成員就已達630多家,成為中國互聯(lián)網一支重要的力量。由于發(fā)展迅速,慧聰集團借上市之機,將慧聰搜索更名為中國搜索,全力發(fā)展其在搜索引擎方面的業(yè)務,以打造中文搜索領域的全新品牌。

 ?、嬷饕诸惸夸?br>
 ?、毖呕⒅袊诸惸夸洠╤ttp://cn.yahoo.com/)。雅虎中國的分類目錄是最早的分類目錄,現(xiàn)有14個主類目,包括“商業(yè)與經濟”、“藝術與人文”等,可以逐層進入進行檢索,也可以利用要害詞對“分類網站”進行搜索(http://m6.search.cnb.yahoo.com/dirsrch/)。此外,雅虎中國也可以對“所有網站”進行要害詞搜索(http://cn.search.yahoo.com/websrch/),早期,他的搜索結果使用Google的數(shù)據(jù),2004年2月正式推出自己的全文搜索引擎,并結束了與Google的合作。

 ?、残吕朔诸惸夸洠╤ttp://dir.sina.com.cn/)。新浪的分類目錄目前共有18個大類目,用戶可按目錄逐級向下瀏覽,直到找到所需網站。就似乎用戶到圖書館找書一樣,按照類別大小,層層查找,最終找到需要的網站或內容。通過和其它全文搜索引擎的合作,現(xiàn)在,也可以使用要害詞對新浪的“分類網站”或“全部網站”進行搜索。

 ?、乘押诸惸夸洠╤ttp://dir.sohu.com/)。搜狐分類目錄把網站作為收錄對象,具體的方法就是將每個網站首頁的URL地址提供給搜索用戶,并且將網站的題名和整個網站的內容簡單描述一下,但是并不揭示網站中每個網頁的信息內容。除此之外,也可以使用要害詞對搜狐的“分類目錄”或所有網站進行搜索。

 ?、淳W易分類目錄(http://search.163.com/)。網易的分類目錄采用“開放式目錄”治理方式,在功能齊全的分布式編輯和治理系統(tǒng)的支持下,現(xiàn)有5000多位各界專業(yè)人士參與可瀏覽分類目錄的編輯工作,極大地適應了互聯(lián)網信息爆炸式增長的趨勢。在加強與其它搜索引擎合作的基礎上,新版搜索引擎支持使用要害詞對所有網站進行檢索。

  
  實際上,搜索引擎的眾多技術都是高度保密的,以是僅僅是筆者的一些愚見,不足之處,還請眾大蝦批評指正。





發(fā)表評論 共有條評論
用戶名: 密碼:
驗證碼: 匿名發(fā)表
主站蜘蛛池模板: 南阳市| 乌拉特前旗| 清河县| 福建省| 界首市| 九江县| 开平市| 鹤庆县| 明溪县| 安化县| 高邑县| 永安市| 漯河市| 怀远县| 伽师县| 成都市| 鹤壁市| 通化县| 噶尔县| 旅游| 华安县| 南昌市| 阳西县| 周至县| 泾源县| 阿瓦提县| 桃江县| 武定县| 武隆县| 定边县| 荆州市| 太康县| 上思县| 巫溪县| 明溪县| 紫金县| 益阳市| 浮梁县| 乌拉特前旗| 南靖县| 青河县|