一、搜索引擎的歷史
二、搜索引擎的技術現狀
三、站內搜索和公網搜索
四、中文分詞和檢索
五、搜索的未來
今天來討論搜索引擎,很有意思的是徽劍作為技術背景的從業人士,曾經也參與了搜索引擎的開發,開發過一套基于互聯網的情報系統,就是當年百度李彥宏也曾經干過的事。后來一直也在關注搜索技術。現在徽劍手上還有兩套搜索引擎系統的方案。
需要指出的是,由于考慮到讀者群體,徽劍在這篇文章中基本上以原理為主,對于一些涉及細節的東西,除了要害的地方以外,一般都會略去不說。希望討論搜索引擎這個話題的可以聯系徽劍,或者加入QQ群21423628 搜索技術研究與實踐,這里主要討論搜索技術、分詞、數據檢索挖掘、技術開發等系列問題,非凡是前沿問題,剛建立的,人不多。不過這個群不歡迎所謂的SEO人士。在徽劍看來,所謂中國的SEO基本都是糊弄人的,這個群里面發現一個清理一個。
徽劍在這里推薦英文好的朋友可以去閱讀一篇文章《The Anatomy of a Large-Scale Hypertextual Web Search Engine》,是講谷歌雛形的東西.一些主要的技術都提到了。不妨可以把徽劍的本文和那篇文章對照起來閱讀,相信你對搜索引擎會有更深的熟悉。
一、國內搜索引擎的歷史
首先讓我們來看看搜索引擎的歷史:
最早的計算機是用于計算彈道軌跡的,但隨后人們就把它用于信息檢索,其實搜索引擎就是一種信息檢索。而計算機檢索系統也就是搜索引擎,我們可以這么說,計算機出現后不久,就出現了搜索引擎。
照IT歷史研究人員的說法,計算機信息檢索可以分為三個階段:
首先是早期的脫機檢索:其特點是不對一個檢索提問立即作出回答,而是集中大批提問后進行處理,且進行處理的時間較長,人機不能對話,
1954年,美國海軍首先采用IBM-701型計算機建立了世界上第一個科技文獻檢索系統,實現了單元詞組配檢索,檢索邏輯只采用“邏輯與”,檢索結果只是文獻號。
1958年,美國通用電器公司將其加以改進,輸出結果增加了題名、作者和文獻摘要等項目。1964年,美國化學文摘服務社建立了文獻處理自動化系統,使編制文摘的大部分工作實現了計算機檢索。
同年,美國國立醫學圖書館建立了計算機數據庫,即醫學文獻分析與檢索系統,不僅可以進行邏輯“或”、“與”、“非”等種運算,而且還可以從多種途徑檢索文獻。
第二階段是聯機信息檢索,從60年代中期到70年代初。由于計算機分時技術的發展,通信技術的改進,以及計算機網絡的初步形成和檢索軟件包的建立,用戶可以通過檢索終端設備與檢索系統中心計算機進行人機對話,從而實現對遠距離之外的數據庫進行檢索的目的,即實現了聯機信息檢索。出現了美國的DIALOG系統、ORBIT系統、BRS系統、歐洲的ESA-IRS系統等。
第三個階段是網絡化聯機檢索階段,此階段是從70年代初到現在。由于數據通信網都可為情報檢索傳輸數據。用戶可借助通訊網絡直接與檢索系統聯機,從而實現不受地域限制的聯機信息檢索。像美國的DIALOG信息公司已成為全世界最為聞名的聯機檢索服務機構。
到了上個世紀90年代,聯機檢索正式從科研、教育等大型機構,走向了大眾的日常生活。讓我們來看看報道:
“90年初當時萬維網還未出現,為了查詢散布在各個分散的主機中的文件,曾有過Archie, Gopher等搜索工具。隨著互聯網的迅速發展,基于HTTP訪問的web技術的迅速普及,在1994年1月,第一個既可搜索又可瀏覽的分類目錄EINet Galaxy(Tradewave Galaxy)上線,它還支持Gopher和Telnet搜索。同年4月,Yahoo目錄誕生,隨著訪問量和收錄鏈接數的增長,開始支持簡單的數據庫查詢。這就是早期的目錄導航系統。
新聞熱點
疑難解答