国产探花免费观看_亚洲丰满少妇自慰呻吟_97日韩有码在线_资源在线日韩欧美_一区二区精品毛片,辰东完美世界有声小说,欢乐颂第一季,yy玄幻小说排行榜完本

首頁 > 編程 > Python > 正文

python3使用urllib模塊制作網絡爬蟲

2020-01-04 17:33:43
字體:
來源:轉載
供稿:網友
本文給大家介紹的是利用urllib模塊通過指定的URL抓取網頁內容 所謂網頁抓取,就是把URL地址中指定的網絡資源從網絡流中讀取出來,保存到本地,有需要的小伙伴可以參考下
 

urllib

urllib模塊是python3的URL處理包

其中:

1、urllib.request主要是打開和閱讀urls

個人平時主要用的1:

打開對應的URL:urllib.request.open(url)

用urllib.request.build_opener([handler, ...]),來偽裝成對應的瀏覽器

import urllib#要偽裝成的瀏覽器(我這個是用的chrome)headers = ('User-Agent','Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/46.0.2490.86 Safari/537.36')url='http://hotels.ctrip.com/'opener = urllib.request.build_opener()#將要偽裝成的瀏覽器添加到對應的http頭部opener.addheaders=[headers]#讀取相應的urldata = opener.open(url).read()#將獲得的html解碼為utf-8data=data.decode('utf-8')print(data)

2、urllib.parse主要是用來解析url

主要方法:

urllib.parse.urlparse(urlstring)

功能:將對應的URL解析成六部分,并以元組的數據格式返回來。(在功能上和urlsplit()幾乎一模一樣)

import urllibo = urllib.parse.urlparse('http://www.cwi.nl:80/%7Eguido/Python.html')print(o)print(o.path)print(o.scheme)print(o.port)print(o.geturl())

對應的結果:

ParseResult(scheme='http', netloc='www.cwi.nl:80', path='/%7Eguido/Python.html', params='', query='', fragment='')
/%7Eguido/Python.html
http
80
http://www.cwi.nl:80/%7Eguido/Python.html

2、構建一個新的url——urllib.parse.urljoin(base, url)

參數:base:基本的URL鏈接

   url:另一個url

from urllib.parse import urljoina=urljoin('http://www.cwi.nl/%7Eguido/Python.html', 'FAQ.html')print(a)

結果:http://www.cwi.nl/%7Eguido/FAQ.html

這個函數在爬蟲的時候應該方便多了,我之前用的是比較笨的方法直接字符串拼接

3、異常處理 urllib.error

用 try-except來捕捉異常

主要的錯誤方式就兩種 URLError和HTTPError

因為HTTPError是URLError的子類,所以URLError應該寫在HttpError后面,說白了就是找到兒子一定知道父親,找到父親,不一定知道兒子。

try:  data=urllib.request.urlopen(url)  print(data.read().decode('utf-8'))except urllib.error.HTTPError as e:  print(e.code)except urllib.error.URLError as e:  print(e.reason)

結果:[WinError 10060] 由于連接方在一段時間后沒有正確答復或連接的主機沒有反應,連接嘗試失敗。

如果捕獲到了HTTPError,則輸出code,不會再處理URLError異常。如果發生的不是HTTPError,則會去捕獲URLError異常,輸出錯誤原因


發表評論 共有條評論
用戶名: 密碼:
驗證碼: 匿名發表
主站蜘蛛池模板: 龙岩市| 正阳县| 巫溪县| 瑞金市| 崇左市| 佛坪县| 宁明县| 习水县| 景谷| 辰溪县| 铁岭市| 达拉特旗| 托克托县| 嘉善县| 泉州市| 太湖县| 铁力市| 天祝| 大新县| 射阳县| 兰溪市| 若尔盖县| 卢氏县| 军事| 襄城县| 乐东| 舞阳县| 家居| 封丘县| 荃湾区| 定远县| 十堰市| 田阳县| 兰坪| 湖州市| 蒙城县| 三门县| 东乡县| 金华市| 曲麻莱县| 峨边|