国产探花免费观看_亚洲丰满少妇自慰呻吟_97日韩有码在线_资源在线日韩欧美_一区二区精品毛片,辰东完美世界有声小说,欢乐颂第一季,yy玄幻小说排行榜完本

首頁 > 網站 > 優化推廣 > 正文

網站優化攻略:Robots.txt使用指南

2024-04-26 13:22:51
字體:
來源:轉載
供稿:網友
搜索引擎訪問一個網站時,它首先會檢查該網站的根域下是否有一個叫做robots.txt的純文本文件。robots.txt文件用于限定搜索引擎對其網站的訪問范圍,即告訴搜索引擎網站中哪些文件是允許它進行檢索(下載)的。這就是大家在網絡上常看到的“拒絕robots訪問標準”(robots exclusion standard)。下面我們簡稱res。 robots.txt文件的格式:robots.txt文件的格式比較特殊,它由記錄組成。這些記錄通過空行分開。其中每條記錄均由兩個域組成:
   1) 一個user-agent(用戶代理)字符串行;
   2) 若干disallow字符串行。
   記錄格式為:<field> ":" <value>
   下面我們分別對這兩個域做進一步說明。
user-agent(用戶代理):
   user-agent行(用戶代理行) 用于指定搜索引擎robot的名字,以google的檢索程序googlebot為例,有:user-agent: googlebot
   一個robots.txt中至少要有一條user-agent記錄。如果有多條user-agent記錄,則說明有多個robot會受到res標準的限制。當然了,如果要指定所有的robot,只需用一個通配符"*"就搞定了,即:user-agent: * disallow(拒絕訪問聲明):
   在robots.txt文件中,每條記錄的第二個域是disallow:指令行。這些disallow行聲明了該網站中不希望被訪問的文件和(或)目錄。例如"disallow: email.htm"對文件的訪問進行了聲明,禁止spiders下載網站上的email.htm文件。而"disallow: /cgi-bin/"則對cgi-bin目錄的訪問進行了聲明,拒絕spiders進入該目錄及其子目錄。disallow聲明行還具有通配符功能。例如上例中"disallow: /cgi-bin/"聲明了拒絕搜索引擎對cgi-bin目錄及其子目錄的訪問,而"disallow:/bob"則拒絕搜索引擎對/bob.html和/bob/indes.html的訪問(即無論是名為bob的文件還是名為bob的目錄下的文件都不允許搜索引擎訪問)。disallow記錄如果留空,則說明該網站的所有部分都向搜索引擎開放。
空格 & 注釋
   在robots.txt文件中,凡以"#"開頭的行,均被視為注解內容,這和unix中的慣例是一樣的。但大家需要注意兩個問題:
   1) res標準允許將注解內容放在指示行的末尾,但這種格式并不是所有的spiders都能夠支持。譬如,并不是所有的spiders都能夠正確理解"disallow: bob #comment"這樣一條指令。有的spiders就會誤解為disallow的是"bob#comment"。最好的辦法是使注解自成一行。
   2) res標準允許在一個指令行的開頭存在空格,象"disallow: bob #comment",但我們也并不建議大家這么做。
robots.txt文件的創建:
   需要注意的是,應當在unix命令行終端模式下創建robots.txt純文本文件。好的文本編輯器一般都能夠提供unix模式功能,或者你的ftp客戶端軟件也“應該”能夠替你轉換過來。如果你試圖用一個沒有提供文本編輯模式的html編輯器來生成你的robots.txt純文本文件,那你可就是瞎子打蚊子——白費力氣了。
對res標準的擴展:
   盡管已經提出了一些擴展標準,如allow行或robot版本控制(例如應該忽略大小寫和版本號),但尚未得到res工作組的正式批準認可。
附錄i. robots.txt用法舉例:
   使用通配符"*",可設置對所有robot的訪問權限。
   user-agent: *
   disallow:
   表明:允許所有搜索引擎訪問網站下的所有內容。
   user-agent: *
   disallow: /
   表明:禁止所有搜索引擎對網站下所有網頁的訪問。
   user-agent: *
   disallow: /cgi-bin/disallow: /images/
   表明:禁止所有搜索引擎進入網站的cgi-bin和images目錄及其下所有子目錄。需要注意的是對每一個目錄必須分開聲明。
   user-agent: roverdog
   disallow: /
   表明:禁止roverdog訪問網站上的任何文件。
   user-agent: googlebot
disallow: cheese.htm
   表明:禁止google的googlebot訪問其網站下的cheese.htm文件。
   上面介紹了一些簡單的設置,對于比較復雜的設置,可參看一些大型站點如cnn或looksmart的robots.txt文件(www.cnn.com/robots.txt, www.looksmart.com/robots.txt )
附錄ii. 相關robots.txt文章參考:
   1. robots.txt常見問題解析
   2. robots meta tag的使用
   3. robots.txt檢測程序
發表評論 共有條評論
用戶名: 密碼:
驗證碼: 匿名發表
主站蜘蛛池模板: 民勤县| 河东区| 金平| 桦南县| 舞钢市| 白银市| 泸溪县| 滦平县| 庐江县| 永定县| 包头市| 红桥区| 许昌市| 鄂托克前旗| 和顺县| 绥江县| 景德镇市| 什邡市| 镶黄旗| 安宁市| 八宿县| 化隆| 元氏县| 武乡县| 巢湖市| 靖江市| 仙居县| 密山市| 淮安市| 金门县| 磴口县| 永昌县| 永丰县| 宿迁市| 侯马市| 咸阳市| 满城县| 闵行区| 安远县| 靖西县| 英德市|