中國互聯網向何處去之三：中國搜索引擎的出路在哪里

2024-04-25 20:25:09

字體：大中小

來源：轉載

供稿：網友

一、搜索引擎的歷史

二、搜索引擎的技術現狀

三、站內搜索和公網搜索

四、中文分詞和檢索

五、搜索的未來

今天來討論搜索引擎，很有意思的是徽劍作為技術背景的從業人士，曾經也參與了搜索引擎的開發，開發過一套基于互聯網的情報系統，就是當年百度李彥宏也曾經干過的事。后來一直也在關注搜索技術。現在徽劍手上還有兩套搜索引擎系統的方案。

需要指出的是，由于考慮到讀者群體，徽劍在這篇文章中基本上以原理為主，對于一些涉及細節的東西，除了要害的地方以外，一般都會略去不說。希望討論搜索引擎這個話題的可以聯系徽劍，或者加入QQ群21423628 搜索技術研究與實踐，這里主要討論搜索技術、分詞、數據檢索挖掘、技術開發等系列問題，非凡是前沿問題，剛建立的，人不多。不過這個群不歡迎所謂的SEO人士。在徽劍看來，所謂中國的SEO基本都是糊弄人的，這個群里面發現一個清理一個。

徽劍在這里推薦英文好的朋友可以去閱讀一篇文章《The Anatomy of a Large-Scale Hypertextual Web Search Engine》，是講谷歌雛形的東西.一些主要的技術都提到了。不妨可以把徽劍的本文和那篇文章對照起來閱讀，相信你對搜索引擎會有更深的熟悉。

一、國內搜索引擎的歷史

首先讓我們來看看搜索引擎的歷史：

最早的計算機是用于計算彈道軌跡的，但隨后人們就把它用于信息檢索，其實搜索引擎就是一種信息檢索。而計算機檢索系統也就是搜索引擎，我們可以這么說，計算機出現后不久，就出現了搜索引擎。

照IT歷史研究人員的說法，計算機信息檢索可以分為三個階段：

首先是早期的脫機檢索：其特點是不對一個檢索提問立即作出回答，而是集中大批提問后進行處理，且進行處理的時間較長，人機不能對話，

1954年，美國海軍首先采用IBM-701型計算機建立了世界上第一個科技文獻檢索系統，實現了單元詞組配檢索，檢索邏輯只采用“邏輯與”，檢索結果只是文獻號。

1958年，美國通用電器公司將其加以改進，輸出結果增加了題名、作者和文獻摘要等項目。1964年，美國化學文摘服務社建立了文獻處理自動化系統，使編制文摘的大部分工作實現了計算機檢索。

同年，美國國立醫學圖書館建立了計算機數據庫，即醫學文獻分析與檢索系統，不僅可以進行邏輯“或”、“與”、“非”等種運算，而且還可以從多種途徑檢索文獻。

第二階段是聯機信息檢索，從60年代中期到70年代初。由于計算機分時技術的發展，通信技術的改進，以及計算機網絡的初步形成和檢索軟件包的建立，用戶可以通過檢索終端設備與檢索系統中心計算機進行人機對話，從而實現對遠距離之外的數據庫進行檢索的目的，即實現了聯機信息檢索。出現了美國的DIALOG系統、ORBIT系統、BRS系統、歐洲的ESA-IRS系統等。

第三個階段是網絡化聯機檢索階段，此階段是從70年代初到現在。由于數據通信網都可為情報檢索傳輸數據。用戶可借助通訊網絡直接與檢索系統聯機，從而實現不受地域限制的聯機信息檢索。像美國的DIALOG信息公司已成為全世界最為聞名的聯機檢索服務機構。

到了上個世紀90年代，聯機檢索正式從科研、教育等大型機構，走向了大眾的日常生活。讓我們來看看報道：

“90年初當時萬維網還未出現，為了查詢散布在各個分散的主機中的文件，曾有過Archie, Gopher等搜索工具。隨著互聯網的迅速發展，基于HTTP訪問的web技術的迅速普及，在1994年1月，第一個既可搜索又可瀏覽的分類目錄EINet Galaxy（Tradewave Galaxy）上線,它還支持Gopher和Telnet搜索。同年4月，Yahoo目錄誕生,隨著訪問量和收錄鏈接數的增長，開始支持簡單的數據庫查詢。這就是早期的目錄導航系統。

上一篇：不懂網站的人，靠網站月賺20萬

下一篇：要想網站做得好就要選個好域名