網(wǎng)站的robots協(xié)議也可以叫做爬蟲協(xié)議,通過這些協(xié)議可以告訴搜索引擎蜘蛛網(wǎng)站的哪些內(nèi)容可以抓取,哪些不能抓取。具體解釋可以參照百度百科。關(guān)于wordpress網(wǎng)站的robots協(xié)議,八貓做了詳細的梳理。這里感謝悅聽有聲站長的分享。
1.什么是robots協(xié)議
網(wǎng)站的robots協(xié)議也可以叫做爬蟲協(xié)議,通過這些協(xié)議可以告訴搜索引擎蜘蛛網(wǎng)站的哪些內(nèi)容可以抓取,哪些不能抓取。具體解釋可以參照百度百科。關(guān)于用法,其實很簡單。寫好robots.txt寫好之后,把robots.txt協(xié)議上傳到網(wǎng)站的根目錄。這樣每次搜索引擎抓取的時候就會遵循robots.txt協(xié)議上的內(nèi)容進行抓取。不過需要注意的是:
robots.txt在書寫的時候一定要謹慎,因為不夠謹慎的話導(dǎo)致網(wǎng)站收錄收到影響。比如下面這句:Disallow: /。Vevb.com
這個指的是不允許抓取網(wǎng)站上所有的內(nèi)容。注意斜杠之前要有一個空格。包括其他的Disallow也是。一定要有空格,這個才是正確的robots寫法。
2.wordpress網(wǎng)站如何使用書寫robots協(xié)議
關(guān)于wordpress網(wǎng)站的robots協(xié)議,八貓做了如下匯總。這是悅聽有聲的站長分享出來的。簡單說下 User-agent: 搜索引擎的名稱。其他的可以具體看。
- User-agent: *
- Disallow: /wp-admin/
- Disallow: /wp-content/
- Disallow: /wp-includes/
- Disallow: /feed
- Disallow: comment-page-*
- Disallow: trackback
- Disallow: /?s=*
- Disallow: /*/?s=*
- Disallow: /?p=*
- Disallow: /?p=*&preview=true
- Disallow: /?page_id=*&preview=true
- Disallow: /wp-login.php
- User-agent: MJ12bot
- Disallow:/
- User-agent: Adsbot-Google
- Disallow: /
- User-agent: Feedfetcher-Google
- Disallow: /
- User-agent: Yahoo! Slurp
- Disallow: /
- User-agent: Yahoo! Slurp China
- Disallow: /
- User-agent: Yahoo!-AdCrawler
- Disallow: /
- User-agent: YoudaoBot
- Disallow: /
- User-agent: Sosospider
- Disallow: /
- User-agent: Sogou spider
- Disallow: /
- User-agent: Sogou web spider
- Disallow: /
- User-agent: MSNBot
- Disallow: /
新聞熱點
疑難解答
圖片精選