前言
最近網站從HTTPS轉為HTTP,更換了網址,舊網址做了301重定向,折騰有點大,于是在百度站長平臺提交網址,不管是主動推送還是手動提交,前提都是要整理網站的鏈接,手動添加太麻煩,效率低,于是就想寫個腳本直接抓取全站鏈接并導出,本文就和大家一起分享如何使用python3實現抓取鏈接導出。

首先網站要有網站地圖sitemap.xml文件地址,其次我這里用的是python3版本,如果你的環境是python2,需要對代碼進行調整,因為python2和python3很多地方差別還是挺大的。
下面是python 3代碼,將里面的鏈接地址換成你自己的網址即可:
#coding=utf-8import urllibimport urllib.request import reurl='http://www.ranzhi.org/sitemap.xml'html=urllib.request.urlopen(url).read()html=html.decode('utf-8')r=re.compile(r'(http://www.ranzhi.org.*?/.html)')big=re.findall(r,html)for i in big: print(i) op_xml_txt=open('xml.txt','a') op_xml_txt.write('%s/n'%i)我們能來看一下運行結果:

導出TXT格式文件后,再在百度站長平臺手動提交就方便的多了。當然我們也可以使用更快的主動推送方式,因為我的網站是用PHP+mysql開發的,所以我們這里使用PHP腳本將上面抓取的鏈接再處理下,然后主動推送給百度,一遍加快爬蟲抓取時間。

上面1是你的站點的主動推送API,這個可以在百度站長平臺獲取;2是要主動推送的網站地址,這里就可以用到我們上面抓取的全站鏈接了。將鏈接地址整理放到該數組中,運行一下個這個PHP腳本,就可以了。一鍵提交,及高效便捷,又能縮短爬蟲爬去時間,有助于網站頁面收錄。
我們在平時的SEO或服務器運維工作中,時常會將重復工作自動化,復雜工作間變化,有助于提升效率,如果大家在操作過充中有何問題可以一起分享交流討論。
總結
以上就是這篇文章的全部內容了,希望本文的內容對大家的學習或者工作能帶來一定的幫助,如果有疑問大家可以留言交流,謝謝大家對VEVB武林網的支持。
新聞熱點
疑難解答