国产探花免费观看_亚洲丰满少妇自慰呻吟_97日韩有码在线_资源在线日韩欧美_一区二区精品毛片,辰东完美世界有声小说,欢乐颂第一季,yy玄幻小说排行榜完本

首頁 > 網(wǎng)站 > 優(yōu)化推廣 > 正文

百度是如何收錄網(wǎng)頁的?百度蜘蛛收錄一個(gè)網(wǎng)站的的全過程揭秘

2024-04-26 14:18:40
字體:
供稿:網(wǎng)友

  搜索引擎工作過程非常復(fù)雜,今天和大家分享一下我所了解的百度蜘蛛是怎么實(shí)現(xiàn)網(wǎng)頁收錄的。

  搜索引擎工作大致可以分為四個(gè)過程。

  1、蜘蛛爬行抓取。

  2、信息過濾。

  3、建立網(wǎng)頁關(guān)鍵詞索引。

  4、用戶搜索輸出結(jié)果。

  蜘蛛爬行抓取

  當(dāng)百度蜘蛛來到一個(gè)頁面時(shí),它會(huì)跟蹤頁面上的鏈接,從這個(gè)頁面爬行到下一個(gè)頁面,就好像一個(gè)遞歸過程,這樣常年累月,不止疲倦的工作。比如蜘蛛來到了我的博客首頁http://blog.sina.com.cn/netSEOer,它會(huì)先讀取根目錄下的robots.txt文件,如果沒有禁止搜索引擎抓取,那么蜘蛛就開始針對網(wǎng)頁上的鏈接,進(jìn)行逐一跟蹤爬行。比如我的置頂文章“SEO概述|什么是SEO SEO到底是干嘛的”,引擎就會(huì)多進(jìn)程式的來到這篇文章所在的網(wǎng)頁抓取信息,如此循壞,沒有終結(jié)。

  信息過濾

  為了避免重復(fù)爬行和抓取網(wǎng)址,搜索引擎會(huì)有一個(gè)記錄已爬行和未被爬行的地址庫,如果你有一個(gè)新網(wǎng)站時(shí),你可以去百度官網(wǎng)提交網(wǎng)站的網(wǎng)址,引擎就會(huì)記錄它,并把它歸類到未爬行的網(wǎng)址,然后蜘蛛就會(huì)根據(jù)這個(gè)表格,從數(shù)據(jù)庫中提取URL,訪問并抓取頁面。

  蜘蛛并不會(huì)收錄所有的頁面,它要經(jīng)過嚴(yán)格檢測。當(dāng)蜘蛛在爬行和抓取一個(gè)網(wǎng)頁的內(nèi)容時(shí),會(huì)進(jìn)行一定程度的復(fù)制內(nèi)容檢測,如果網(wǎng)頁所在的網(wǎng)站權(quán)重低,而且大部分文章都是抄襲來的話,蜘蛛就很可能不喜歡你的網(wǎng)站了,不在繼續(xù)爬行,也就不收錄你的網(wǎng)站。

  建立網(wǎng)頁關(guān)鍵詞索引

  當(dāng)蜘蛛抓取了一個(gè)頁面之后,首先會(huì)對頁面文字內(nèi)容進(jìn)行分析。通過分詞技術(shù),將網(wǎng)頁的內(nèi)容簡化到關(guān)鍵詞,并把關(guān)鍵詞和對應(yīng)的網(wǎng)址制成表格建立索引。

  索引又有正向索引和反向索引,正向索引是把網(wǎng)頁內(nèi)容對應(yīng)的關(guān)鍵詞,反向是關(guān)鍵詞對應(yīng)的網(wǎng)頁信息。

  輸出結(jié)果

  當(dāng)用戶搜索了某個(gè)關(guān)鍵詞之后,就會(huì)通過前面建立的索引表進(jìn)行關(guān)鍵詞匹配,通過反向索引表找到關(guān)鍵詞對應(yīng)的頁面,通過引擎對網(wǎng)頁綜合評分計(jì)算以后,根據(jù)網(wǎng)頁的評分來決定網(wǎng)頁的先后順序排名。

  相關(guān)推薦:

  網(wǎng)站優(yōu)化 百度蜘蛛到底喜歡什么?

  怎么查詢ip是否為百度蜘蛛ip? tracert指令的使用方法

發(fā)表評論 共有條評論
用戶名: 密碼:
驗(yàn)證碼: 匿名發(fā)表
主站蜘蛛池模板: 和林格尔县| 阿瓦提县| 沙河市| 淮安市| 修文县| 祁门县| 揭阳市| 凭祥市| 苍南县| 军事| 灯塔市| 兴海县| 闽清县| 应城市| 灵山县| 筠连县| 白沙| 台北市| 阿合奇县| 波密县| 浪卡子县| 海城市| 色达县| 华容县| 正阳县| 扎赉特旗| 台中市| 同江市| 紫金县| 武川县| 邛崃市| 巨鹿县| 九寨沟县| 道孚县| 湄潭县| 泗阳县| 仪陇县| 界首市| 镇平县| 南宫市| 凉城县|