這是 google 工程師 amit singhal 發(fā)表在 google 官方博客的一篇文章,講述了 google 搜索排名背后的一些技術(shù),涉及到 google 對網(wǎng)頁,對語義,對用戶意圖的理解。
google 搜索排名的核心技術(shù)源自已有50年歷史的學(xué)術(shù)課題 information retrieval (ir),ir 技術(shù)使用統(tǒng)計(jì)學(xué)原理對文字的使用頻率等屬性進(jìn)行研究并對結(jié)果進(jìn)行排名。建立在 ir 理論上的 google 搜索同時借助鏈接,網(wǎng)頁結(jié)構(gòu)等等技術(shù)形成獨(dú)特的搜索技術(shù)。
理解網(wǎng)頁:
google 多年來在網(wǎng)絡(luò)爬蟲與索引系統(tǒng)上投入巨資,因此,google 擁有非常龐大并且是最新的網(wǎng)頁索引,除此之外,google 還使用一些最新技術(shù)提高索引質(zhì)量,比如,他們開發(fā)了一種技術(shù),可以在字面意思之外理解一個網(wǎng)頁所表達(dá)的重要概念,人們使用意大利語言搜索 “galleria sprovieri londra”,會找到倫敦的 sprovieri gallery,盡管 sprovieri gallery 主頁上既沒有 london,也沒有 londra 字樣。在美國,人們搜索 “cool tech pc vancouver, wa”,會找到 www.cooltechpc.com,然而 www.cooltechpc.com 的主頁上沒有任何文字表明他們位于 vancouver。其它技術(shù)包括,區(qū)分一個網(wǎng)頁中的重要或非重要文字,以及網(wǎng)頁內(nèi)容的新鮮度。
理解語義:
google 可以通過用戶提供的幾個搜索關(guān)鍵詞,理解用戶的真實(shí)意圖。他們在拼寫糾正,詞義,以及概念分析方面處于非常領(lǐng)先的位置。很多人都或多或少體驗(yàn)過 google 的拼寫糾正功能,比如搜索 “kofee annan”,google 會問你搜索的是否 “kofi annan”,然而,當(dāng)有人搜索 “kofee beans”,google 會糾正成 “coffee beans”。(google 事實(shí)上已經(jīng)在嘗試語義技術(shù) - 譯者)
詞義是 google 嘗試?yán)斫獠樵冋Z義的基礎(chǔ),也是 google 遇到的最大難題。一些在人看來顯而易見的東西,機(jī)器卻很難自動處理。用戶并不想對使用什么詞匯進(jìn)行查詢而費(fèi)神,人們甚至壓根不知道該使用什么進(jìn)行查詢。在這種時候,google 的詞義系統(tǒng)便可以發(fā)揮作用,詞義系統(tǒng)可以對查詢語句進(jìn)行非常復(fù)雜的修正,比如,查詢 “dr zhivago” 的時候,google 知道 dr 代表 doctor ,而查詢 “rodeo dr” 的時候,dr 代表 drive。用戶搜索 “back bumper repair” 的時候,結(jié)果是 rear bumper repair,而搜索 “ramstein ab”,google 能夠?qū)?ab 理解成 air base,“b&b ab” 會理解為 alberta 的 bed and breakfasts 。google 將這種詞義理解系統(tǒng)發(fā)展到上百種不同語言。
google 在搜索排名中使用的另一項(xiàng)技術(shù)是概念識別,該技術(shù)可以對查詢的內(nèi)容進(jìn)行概念識別,比如,我們查詢 “new york times square church”,google 知道我們實(shí)際上查詢的是紐約時代廣場上的那座著名教堂,而不是紐約時報(bào)中的某篇文章。概念識別技術(shù)并不止這些,google 還對其進(jìn)行加強(qiáng)以正確地識別語義,比如,搜索 “pc and its impact on people”,事實(shí)上是搜索計(jì)算機(jī)對社會的影響。google 的搜索分析算法中這類技術(shù)比比皆是,而且面向幾乎所有語言。
理解用戶:
google 嘗試?yán)斫庥脩舻哪康氖菫橛脩舴祷厮麄冋嬲枰慕Y(jié)果,而不是他們在搜索語句中所說的東西。該技術(shù)基于一個世界級的本地化系統(tǒng),外加先進(jìn)的個性化技術(shù),以及各種用戶意圖識別技術(shù)。
google 對本地結(jié)果的重視體現(xiàn)在他們的本地化工作中。同樣一個查詢語句在不同國家會返回不同結(jié)果,比如,查詢 “bank]”,在美國返回的是銀行,而英國則可能是 bank fashion 的服裝連鎖店,或者英國的銀行,而在其它英語國家,如澳大利亞,加拿大,新西蘭,南非,返回的則應(yīng)仍舊是當(dāng)?shù)氐你y行。如果你在一些非英語國家查詢這個詞,象埃及,以色列,日本,俄羅斯,沙特,瑞士,返回的結(jié)果將更有趣。就象 football 在美國和英國表示不同的運(yùn)動項(xiàng)目一樣,同一個詞在不同國家查詢的結(jié)果可能截然不同。
個性化查詢是 google 另一項(xiàng)先進(jìn)搜索技術(shù),一個已經(jīng)登錄的用戶,如果開通了 web history 服務(wù),隨著他查詢時間的增長,google 會根據(jù)他的查詢歷史,自動調(diào)整返回的結(jié)果,比如,一個經(jīng)常查詢 football 相關(guān)話題的人,會逐漸從 google 得到更多足球相關(guān)的結(jié)果。如果你青睞某個購物站返回的結(jié)果,在以后的查詢中,會從那個購物站得到更多結(jié)果。
google 在返回用戶真正想要的結(jié)果方面的另一個例子是,假如你搜索 “chevrolet magnum”,我們知道 magnum 不是 chevrolet 產(chǎn)的,是 dodge 產(chǎn)的,google 會自動返回 dodge magnum 的結(jié)果。還有一個例子,有人搜索 “bangalore”,不僅返回 bangalore 這個城市的主頁,而且返回 bangalore 的地圖,以及一些與 bangalore 市景,交通相關(guān)的視頻,這些視頻會讓你有身臨其境的感覺。
新聞熱點(diǎn)
疑難解答
圖片精選