国产探花免费观看_亚洲丰满少妇自慰呻吟_97日韩有码在线_资源在线日韩欧美_一区二区精品毛片,辰东完美世界有声小说,欢乐颂第一季,yy玄幻小说排行榜完本

首頁 > 網站 > 優化推廣 > 正文

robots.txt的語法規則

2024-04-26 13:22:27
字體:
來源:轉載
供稿:網友

robots.txt文件

  robots.txt只能存放于網站的根目錄下,置于除此之外的任何地方均不會被spider發現。

  每個網站,或每個域名(包括子域名),只能有一個robots.txt。

  文件名“robots.txt”為小寫字母,其他如robots.txt或robots.txt是不正確的,命名錯誤將會被spider忽略。

  正如上篇文章中介紹的,spider在網站內找不到robots.txt時將會被重定向到404 錯誤頁面,這便有可能阻礙spider抓取和收錄頁面。雖然這并不一定會發生,但很多時候我們沒必要冒這樣的風險,一般來說,即使我們對網站的所有內容都沒有限制,對所有的搜索引擎spider 都歡迎,最好也在根目錄下創建一個robots.txt文件:

user-agent: *
disallow:

robots.txt的語法規則

  在disallow項中使用小寫字母,即文件名和目錄名使用小寫字母,特別在對大小寫敏感的unix下更要注意。

  robots.txt惟一支持的通配符是在user-agent使用的“*”,其代表所有的spider。除此之外,別的通配符均不可用。這方面的錯誤常見于在文件名或目錄名中使用通配符。

  robots.txt的限定項

  在user-agent和disallow項的設定中,每行只允許有一個設定值,同時,注意不要有空行。至于行數,則沒有限制,理論上說可以根據需要創建具有無數行的robots.txt。

  下面即是一個錯誤的例子

user-agent: *
disallow: /dir1/ /dir2/ /dir3/

  正確設置應為:

user-agent: *
disallow: /dir1/
disallow: /dir2/
disallow: /dir3/

  robots.txt中的文件與目錄

  既定某個文件拒絕索引時,格式為文件名(包括擴展名),其后無“/”,而限定目錄時,則需在目錄名后加“/”。如下面的示例:

user-agent: *
disallow: /file.html
disallow: /dir/

  特別注意的是,不要省略掉目錄名后的“/”,不然,spider便極有可能誤讀相應的設置。

  robots.txt中限定項的順序

  請看下方的示例:

user-agent: *
disallow: /
user-agent: googlebot
disallow:

  該設定本意是想允許google訪問所有頁面,同時禁止其他spider的訪問。但在這樣的設置下,googlebot在讀取前2行后便會離開網站,后面對其的“解禁”完全失去了意義。正確的格式應為:

user-agent: googlebot
disallow:
user-agent: *
disallow: /

  robots.txt中的注釋

  盡管在robots.txt的標準中,可以在限定項的后面使用“#”添加注釋,如下面的例子

user-agent: googlebot #這是對google的設置
disallow:

  但很多研究與測試表明,不少spider對這樣格式的解讀存在問題。為確保其能更好地工作,最好采用如下設置:

#這是對google的設置
user-agent: googlebot
disallow:

發表評論 共有條評論
用戶名: 密碼:
驗證碼: 匿名發表
主站蜘蛛池模板: 沂南县| 富宁县| 宁南县| 临夏市| 崇左市| 连南| 绥中县| 那坡县| 乐至县| 天全县| 仁寿县| 启东市| 昌黎县| 洞口县| 宁蒗| 健康| 肃宁县| 元氏县| 吉林市| 兴安盟| 科技| 贵阳市| 竹山县| 昆山市| 定日县| 彭泽县| 新河县| 岳池县| 渑池县| 新乡市| 龙里县| 武功县| 高碑店市| 淮南市| 高碑店市| 乐山市| 双鸭山市| 米脂县| 诸暨市| 邹城市| 通道|