利用Python3分析sitemap.xml并抓取導出全站鏈接詳解

2020-01-04 16:56:07

字體：大中小

來源：轉載

供稿：網友

前言

最近網站從HTTPS轉為HTTP，更換了網址，舊網址做了301重定向，折騰有點大，于是在百度站長平臺提交網址，不管是主動推送還是手動提交，前提都是要整理網站的鏈接，手動添加太麻煩，效率低，于是就想寫個腳本直接抓取全站鏈接并導出，本文就和大家一起分享如何使用python3實現抓取鏈接導出。

python爬取全站鏈接,python抓取網頁鏈接,python,數據導出

首先網站要有網站地圖sitemap.xml文件地址，其次我這里用的是python3版本，如果你的環境是python2，需要對代碼進行調整，因為python2和python3很多地方差別還是挺大的。

下面是python 3代碼，將里面的鏈接地址換成你自己的網址即可：

#coding=utf-8import urllibimport urllib.request import reurl='http://www.ranzhi.org/sitemap.xml'html=urllib.request.urlopen(url).read()html=html.decode('utf-8')r=re.compile(r'(http://www.ranzhi.org.*?/.html)')big=re.findall(r,html)for i in big: print(i) op_xml_txt=open('xml.txt','a') op_xml_txt.write('%s/n'%i)

我們能來看一下運行結果：

python爬取全站鏈接,python抓取網頁鏈接,python,數據導出