国产探花免费观看_亚洲丰满少妇自慰呻吟_97日韩有码在线_资源在线日韩欧美_一区二区精品毛片,辰东完美世界有声小说,欢乐颂第一季,yy玄幻小说排行榜完本

首頁 > 網(wǎng)站 > 建站經(jīng)驗 > 正文

Google員工揭密防止網(wǎng)站作弊技術(shù)

2019-11-02 16:56:51
字體:
供稿:網(wǎng)友
Google 研究員 吳軍

自從有了搜索引擎,就有了針對搜索引擎網(wǎng)頁排名的作弊(SPAM)。以至于用戶發(fā)現(xiàn)在搜索引擎中排名靠前的網(wǎng)頁不一定就是高質(zhì)量的,用句俗話說,閃光的不一定是金子。

搜索引擎的作弊,雖然方法很多,目的只有一個,就是采用不正當(dāng)手

段提高自己網(wǎng)頁的排名。早期最常見的作弊方法是重復(fù)關(guān)鍵詞。比如一個賣數(shù)碼相機(jī)的網(wǎng)站,重復(fù)地羅列各種數(shù)碼相機(jī)的品牌,如尼康、佳能和柯達(dá)等等。為了不讓讀者看到眾多討厭的關(guān)鍵詞,聰明一點的作弊者常用很小的字體和與背景相同的顏色來掩蓋這些關(guān)鍵詞。其實,這種做法很容易被搜索引擎發(fā)現(xiàn)并糾正。

在有了網(wǎng)頁排名(page rank)以后,作弊者發(fā)現(xiàn)一個網(wǎng)頁被引用的連接越多,排名就可能越靠前,于是就有了專門賣鏈接和買鏈接的生意。比如,有人自己創(chuàng)建成百上千個網(wǎng)站,這些網(wǎng)站上沒有實質(zhì)的內(nèi)容,只有到他們的客戶網(wǎng)站的連接。這種做法比重復(fù)關(guān)鍵詞要高明得多,但是還是不太難被發(fā)現(xiàn)。因為那些所謂幫別人提高排名的網(wǎng)站,為了維持生意需要大量地賣鏈接,所以很容易露馬腳。(這就如同造假鈔票,當(dāng)某一種假鈔票的流通量相當(dāng)大以后,就容易找到根源了。)再以后,又有了形形色色的作弊方式,我們就不在這里一一贅述了。

幾年前,我加入Google做的第一件事就是消除網(wǎng)絡(luò)作弊。在Google最早發(fā)現(xiàn)搜索引擎作弊的是Matt Cutts,他在我加入Google前幾個月開始研究這個問題,后來,辛格,馬丁和我先后加入進(jìn)來。我們經(jīng)過幾個月的努力,清除了一半的作弊者。(當(dāng)然,以后抓作弊的效率就不會有這么高了。)其中一部分網(wǎng)站從此"痛改前非",但是還是有很多網(wǎng)站換一種作弊方法繼續(xù)作弊,因此,抓作弊成了一種長期的貓捉老鼠的游戲。雖然至今還沒有一個一勞永逸地解決作弊問題的方法,但是,Google基本做到了對于任何已知的作弊方法,在一定時間內(nèi)發(fā)現(xiàn)并清除它,從而總是將作弊的網(wǎng)站的數(shù)量控制在一個很小的比例范圍。

抓作弊的方法很像信號處理中的去噪音的辦法。學(xué)過信息論和有信號處理經(jīng)驗的讀者可能知道這么一個事實,我們?nèi)绻诎l(fā)動機(jī)很吵的汽車?yán)镉檬謾C(jī)打電話,對方可能聽不清;但是如果我們知道了汽車發(fā)動機(jī)的頻率,我們可以加上一個和發(fā)動機(jī)噪音相反的信號,很容易地消除發(fā)動機(jī)的噪音,這樣,收話人可以完全聽不到汽車的噪音。事實上,現(xiàn)在一些高端的手機(jī)已經(jīng)有了這種檢測和消除噪音的功能。消除噪音的流程可以概括如下:

在圖中,原始的信號混入了噪音,在數(shù)學(xué)上相當(dāng)于兩個信號做卷積。噪音消除的過程是一個解卷積的過程。這在信號處理中并不是什么難題。因為第一,汽車發(fā)動機(jī)的頻率是固定的,第二,這個頻率的噪音重復(fù)出現(xiàn),只要采集幾秒鐘的信號進(jìn)行處理就能做到。從廣義上講,只要噪音不是完全隨機(jī)的、并且前后有相關(guān)性,就可以檢測到并且消除。(事實上,完全隨機(jī)不相關(guān)的高斯白噪音是很難消除的。)

搜索引擎的作弊者所作的事,就如同在手機(jī)信號中加入了噪音,使得搜索結(jié)果的排名完全亂了。但是,這種人為加入的噪音并不難消除,因為作弊者的方法不可能是隨機(jī)的(否則就無法提高排名了)。而且,作弊者也不可能是一天換一種方法,即作弊方法是時間相關(guān)的。因此,搞搜索引擎排名算法的人,可以在搜集一段時間的作弊信息后,將作弊者抓出來,還原原有的排名。當(dāng)然這個過程需要時間,就如同采集汽車發(fā)動機(jī)噪音需要時間一樣,在這段時間內(nèi),作弊者可能會嘗到些甜頭。因此,有些人看到自己的網(wǎng)站經(jīng)過所謂的優(yōu)化(其實是作弊),排名在短期內(nèi)靠前了,以為這種所謂的優(yōu)化是有效的。但是,不久就會發(fā)現(xiàn)排名掉下去了很多。這倒不是搜索引擎以前寬容,現(xiàn)在嚴(yán)厲了,而是說明抓作弊需要一定的時間,以前只是還沒有檢測到這些作弊的網(wǎng)站而已。

還要強(qiáng)調(diào)一點,Google抓作弊和恢復(fù)網(wǎng)站原有排名的過程完全是自動的(并沒有個人的好惡),就如同手機(jī)消除噪音是自動的一樣。一個網(wǎng)站要想長期排名靠前,就需要把內(nèi)容做好,同時要和那些作弊網(wǎng)站劃清界限。
發(fā)表評論 共有條評論
用戶名: 密碼:
驗證碼: 匿名發(fā)表
主站蜘蛛池模板: 稷山县| 祁东县| 武冈市| 江孜县| 星子县| 绿春县| 清苑县| 陵川县| 正定县| 桑日县| 莱西市| 三门县| 旅游| 西林县| 鸡东县| 都匀市| 逊克县| 宝兴县| 成安县| 内江市| 凤山市| 青冈县| 崇文区| 容城县| 景泰县| 奉化市| 池州市| 鹿泉市| 梧州市| 安义县| 淮滨县| 凉城县| 大厂| 木兰县| 花垣县| 营口市| 枣庄市| 侯马市| 苏尼特左旗| 七台河市| 宁晋县|