国产探花免费观看_亚洲丰满少妇自慰呻吟_97日韩有码在线_资源在线日韩欧美_一区二区精品毛片,辰东完美世界有声小说,欢乐颂第一季,yy玄幻小说排行榜完本

首頁 > 編程 > Python > 正文

利用Python3分析sitemap.xml并抓取導出全站鏈接詳解

2020-01-04 16:56:07
字體:
來源:轉載
供稿:網友

前言

最近網站從HTTPS轉為HTTP,更換了網址,舊網址做了301重定向,折騰有點大,于是在百度站長平臺提交網址,不管是主動推送還是手動提交,前提都是要整理網站的鏈接,手動添加太麻煩,效率低,于是就想寫個腳本直接抓取全站鏈接并導出,本文就和大家一起分享如何使用python3實現抓取鏈接導出。

python爬取全站鏈接,python抓取網頁鏈接,python,數據導出

首先網站要有網站地圖sitemap.xml文件地址,其次我這里用的是python3版本,如果你的環境是python2,需要對代碼進行調整,因為python2和python3很多地方差別還是挺大的。

下面是python 3代碼,將里面的鏈接地址換成你自己的網址即可:

#coding=utf-8import urllibimport urllib.request import reurl='http://www.ranzhi.org/sitemap.xml'html=urllib.request.urlopen(url).read()html=html.decode('utf-8')r=re.compile(r'(http://www.ranzhi.org.*?/.html)')big=re.findall(r,html)for i in big: print(i) op_xml_txt=open('xml.txt','a') op_xml_txt.write('%s/n'%i)

我們能來看一下運行結果:

python爬取全站鏈接,python抓取網頁鏈接,python,數據導出

導出TXT格式文件后,再在百度站長平臺手動提交就方便的多了。當然我們也可以使用更快的主動推送方式,因為我的網站是用PHP+mysql開發的,所以我們這里使用PHP腳本將上面抓取的鏈接再處理下,然后主動推送給百度,一遍加快爬蟲抓取時間。

python爬取全站鏈接,python抓取網頁鏈接,python,數據導出

上面1是你的站點的主動推送API,這個可以在百度站長平臺獲取;2是要主動推送的網站地址,這里就可以用到我們上面抓取的全站鏈接了。將鏈接地址整理放到該數組中,運行一下個這個PHP腳本,就可以了。一鍵提交,及高效便捷,又能縮短爬蟲爬去時間,有助于網站頁面收錄。

我們在平時的SEO或服務器運維工作中,時常會將重復工作自動化,復雜工作間變化,有助于提升效率,如果大家在操作過充中有何問題可以一起分享交流討論。

總結

以上就是這篇文章的全部內容了,希望本文的內容對大家的學習或者工作能帶來一定的幫助,如果有疑問大家可以留言交流,謝謝大家對VEVB武林網的支持。

發表評論 共有條評論
用戶名: 密碼:
驗證碼: 匿名發表
主站蜘蛛池模板: 水城县| 印江| 周至县| 东源县| 南昌市| 陆良县| 措美县| 育儿| 日照市| 芜湖县| 巴林右旗| 施秉县| 仙游县| 城固县| 上蔡县| 清河县| 平阴县| 冷水江市| 南投县| 齐河县| 天峨县| 锦屏县| 贡嘎县| 铜川市| 太仆寺旗| 新巴尔虎右旗| 班戈县| 三亚市| 长岛县| 邮箱| 盈江县| 德保县| 宁晋县| 邵阳县| 萝北县| 夏邑县| 田东县| 商河县| 万州区| 中江县| 静宁县|