Python網絡爬蟲與信息提取(實例講解)

2020-01-04 16:49:52

字體：大中小

來源：轉載

供稿：網友

課程體系結構：

1、Requests框架：自動爬取HTML頁面與自動網絡請求提交

2、robots.txt:網絡爬蟲排除標準

3、BeautifulSoup框架：解析HTML頁面

4、Re框架：正則框架，提取頁面關鍵信息

5、Scrapy框架：網絡爬蟲原理介紹，專業爬蟲框架介紹

理念：The Website is the API ...

Python語言常用的IDE工具

文本工具類IDE：

IDLE、Notepad++、Sublime Text、Vim & Emacs、Atom、Komodo Edit

集成工具IDE：

PyCharm、Wing、PyDev & Eclipse、Visual Studio、Anaconda & Spyder、Canopy

·IDLE是Python自帶的默認的常用的入門級編寫工具，它包含交互式文件式兩種方式。適用于較短的程序。

·Sublime Text是專為程序員開發的第三方專用編程工具，可以提高編程體驗，具有多種編程風格。

·Wing是Wingware公司提供的收費IDE，調試功能豐富，具有版本控制，版本同步功能，適合于多人共同開發。適用于編寫大型程序。

·Visual Studio是微軟公司維護的，可以通過配置PTVS編寫Python，主要以Windows環境為主，調試功能豐富。

·Eclipse是一款開源的IDE開發工具，可以通過配置PyDev來編寫Python，但是配置過程復雜，需要有一定的開發經驗。

·PyCharm分為社區版和專業版，社區版免費，具有簡單、集成度高的特點，適用于編寫較復雜的工程。

適用于科學計算、數據分析的IDE：

·Canopy是由Enthought公司維護的收費工具，支持近500個第三方庫，適合科學計算領域應用開發。

·Anaconda是開源免費的，支持近800個第三方庫。

Requests庫入門

Requests的安裝：

Requests庫是目前公認的爬取網頁最好的Python第三方庫，具有簡單、簡捷的特點。

官方網站：http://www.python-requests.org

在"C:/Windows/System32"中找到"cmd.exe"，使用管理員身份運行，在命令行中輸入：“pip install requests”運行。

網絡爬蟲,信息提取,Python

使用IDLE測試Requests庫：

>>> import requests>>> r = requests.get("http://www.baidu.com")#抓取百度頁面>>> r.status_code>>> r.encoding = 'utf-8'>>> r.text

Requests庫的7個主要方法

方法	說明
requests.request()	構造一個請求，支撐以下各方法的基礎方法
requests.get()	獲取HTML網頁的主要方法，對應于HTTP的GET
requests.head()	獲取HTML網頁頭信息的方法，對應于HTTP的HEAD
requests.post()	向HTML網頁提交POST請求的方法，對應于HTTP的POST
requests.put()	向HTML網頁提交PUT請求的方法，對應于HTTP的PUT
requests.patch()	向HTML網頁提交局部修改請求，對應于HTTP的PATCH
requests.delete()	向HTML頁面提交刪除請求，對應于HTTP的DELET

詳細信息參考 Requests庫 API文檔：http://www.python-requests.org/en/master/api/

get()方法

r = requests.get(url)

get()方法構造一個向服務器請求資源的Request對象，返回一個包含服務器資源的Response對象。

requests.get(url, params=None, **kwargs)

url：擬獲取頁面的url鏈接

params：url中的額外參數，字典或字節流格式，可選

**kwargs：12個控制訪問參數

Requests庫的2個重要對象

· Request

· Response:Response對象包含爬蟲返回的內容

Response對象的屬性

r.status_code ：HTTP請求的返回狀態，200表示連接成功，404表示失敗

r.text ：HTTP響應內容的字符串形式，即，url對應的頁面內容

r.encoding ：從HTTP header中猜測的相應內容編碼方式　

r.apparent_encoding ：從內容中分析出的相應內容編碼方式（備選編碼方式）

r.content ： HTTP響應內容的二進制形式

r.encoding ：如果header中不存在charset，則認為編碼為ISO-8859-1 。

r.apparent_encoding ：根據網頁內容分析出的編碼方式可以看作是r.encoding的備選。

Response的編碼：

r.encoding : 從HTTP header中猜測的響應內容的編碼方式；如果header中不存在charset，則認為編碼為ISO-8859-1，r.text根據r.encoding顯示網頁內容

r.apparent_encoding : 根據網頁內容分析出的編碼方式，可以看作r.encoding的備選

爬取網頁的通用代碼框架

Requests庫的異常

異常	說明
requests.ConnectionError	網絡連接錯誤異常，如DNS查詢失敗拒絕連接等
requests.HTTPError	HTTP錯誤異常
requests.URLRequired	URL缺失異常
requests.ToolManyRedirects	超過最大重定向次數，產生重定向異常
requests.ConnectTimeout	連接遠程服務器超時異常
requests.Timeout	請求URL超時，嘗試超時異常

Response的異常

r.raise_for_status() : 如果不是200，產生異常requests.HTTPError；

在方法內部判斷r.status_code是否等于200，不需要增加額外的if語句，該語句便于利用try-except進行異常處理

import requestsdef getHTMLText(url):　　try:　　　　r = requests.get(url, timeout=30)　　　　r.raise_for_status() # 如果狀態不是200，引發HTTPError異常　　　　r.encoding = r.apparent_encoding　　　　return r.text　　except: 　　　　return "產生異常"if __name__ == "__main__":　　url = "http://www.baidu.com"　　print(getHTMLText(url))

通用代碼框架，可以使用戶爬取網頁變得更有效，更穩定、可靠。

HTTP協議

HTTP,Hypertext Transfer Protocol，超文本傳輸協議。

HTTP是一個基于“請求與響應”模式的、無狀態的應用層協議。

HTTP協議采用URL作為定位網絡資源的標識。

URL格式：http://host[:port][path]

· host：合法的Internet主機域名或IP地址
· port：端口號，缺省端口號為80
· path：請求資源的路徑

HTTP URL的理解：

URL是通過HTTP協議存取資源的Internet路徑，一個URL對應一個數據資源。

HTTP協議對資源的操作

方法	說明
GET	請求獲取URL位置的資源
HEAD	請求獲取URL位置資源的響應消息報告，即獲得該資源的頭部信息
POST	請求向URL位置的資源后附加新的數據
PUT	請求向URL位置存儲一個資源，覆蓋原URL位置資源
PATCH	請求局部更新URL位置的資源，即改變該處資源的部分內容
DELETE	請求刪除URL位置存儲的資源

理解PATCH和PUT的區別

假設URL位置有一組數據UserInfo，包括UserID、UserName等20個字段。

需求：用戶修改了UserName，其他不變。

· 采用PATCH，僅向URL提交UserName的局部更新請求。

· 采用PUT，必須將所有20個字段一并提交到URL，未提交字段被刪除。

PATCH的主要好處：節省網絡帶寬

Requests庫主要方法解析

requests.request(method, url, **kwargs)

· method：請求方式，對應get/put/post等7種

例： r = requests.request('OPTIONS', url, **kwargs)

· url：擬獲取頁面的url鏈接

· **kwargs：控制訪問的參數，共13個，均為可選項

params：字典或字節序列，作為參數增加到url中；

kv = {'key1':'value1', 'key2':'value2'}r = requests.request('GET', 'http://python123.io/ws',params=kv)print(r.url)'''http://python123.io/ws?key1=value1&key2=value2'''

data：字典、字節序列或文件對象，作為Request的內容；

json：JSON格式的數據，作為Request的內容；

headers：字典，HTTP定制頭；

hd = {'user-agent':'Chrome/10'}r = requests.request('POST','http://www.yanlei.shop',headers=hd)

cookies：字典或CookieJar，Request中的cookie；

auth：元組，支持HTTP認證功能；

files：字典類型，傳輸文件；

fs = {'file':open('data.xls', 'rb')}r = requests.request('POST','http://python123.io/ws',files=fs)

timeout：設定超時時間，秒為單位；

proxies：字典類型，設定訪問代理服務器，可以增加登錄認證

allow_redirects：True/False，默認為True，重定向開關；

stream：True/False，默認為True，獲取內容立即下載開關；

verify：True/False，默認為True，認證SSL證書開關；

cert：本地SSL證書路徑

#方法及參數requests.get(url, params=None, **kwargs)requests.head(url, **kwargs)requests.post(url, data=None, json=None, **kwargs)requests.put(url, data=None, **kwargs)requests.patch(url, data=None, **kwargs)requests.delete(url, **kwargs)

網絡爬蟲,信息提取,Python

網絡爬蟲引發的問題

性能騷擾：

受限于編寫水平和目的，網絡爬蟲將會為web服務器帶來巨大的資源開銷

法律風險：

服務器上的數據有產權歸屬，網路爬蟲獲取數據后牟利將帶來法律風險。

隱私泄露：

網絡爬蟲可能具備突破簡單訪問控制的能力，獲得被保護數據從而泄露個人隱私。

網絡爬蟲的限制

·來源審查：判斷User-Agent進行限制

檢查來訪HTTP協議頭的User-Agent域，值響應瀏覽器或友好爬蟲的訪問。

· 發布公告：Roots協議

告知所有爬蟲網站的爬取策咯，要求爬蟲遵守。

Robots協議

Robots Exclusion Standard 網絡爬蟲排除標準

作用：網站告知網絡爬蟲哪些頁面可以抓取，哪些不行。

形式：在網站根目錄下的robots.txt文件。

案例：京東的Robots協議

http://www.jd.com/robots.txt

# 注釋：*代表所有，/代表根目錄User-agent: * Disallow: /?* Disallow: /pop/*.html Disallow: /pinpai/*.html?* User-agent: EtaoSpider Disallow: / User-agent: HuihuiSpider Disallow: / User-agent: GwdangSpider Disallow: / User-agent: WochachaSpider Disallow: /

Robots協議的使用

　　網絡爬蟲：自動或人工識別robots.txt，再進行內容爬取。

網絡爬蟲,信息提取,Python

約束性：Robots協議是建議但非約束性，網絡爬蟲可以不遵守，但存在法律風險。

Requests庫網絡爬蟲實戰

1、京東商品

import requestsurl = "https://item.jd.com/5145492.html"try: r = requests.get(url) r.raise_for_status() r.encoding = r.apparent_encoding print(r.text[:1000])except: print("爬取失敗")

2、亞馬遜商品

# 直接爬取亞馬遜商品是會被拒絕訪問，所以需要添加'user-agent'字段import requestsurl = "https://www.amazon.cn/gp/product/B01M8L5Z3Y"try: kv = {'user-agent':'Mozilla/5.0'} # 使用代理訪問 r = requests.get(url, headers = kv) r.raise_for_status() r.encoding = r.apparent_encoding print(t.text[1000:2000])except: print("爬取失敗")

3、百度/360搜索關鍵詞提交

搜索引擎關鍵詞提交接口

· 百度的關鍵詞接口：

http://www.baidu.com/s?wd=keyword

· 360的關鍵詞接口：

http://www.so.com/s?q=keyword

# 百度import requestskeyword = "Python"try: kv = {'wd':keyword} r = requests.get("http://www.baidu.com/s",params=kv) print(r.request.url) r.raise_for_status() print(len(r.text))except: print("爬取失敗")

# 360import requestskeyword = "Python"try: kv = {'q':keyword} r = requests.get("http://www.so.com/s",params=kv) print(r.request.url) r.raise_for_status() print(len(r.text))except: print("爬取失敗")

4、網絡圖片的爬取和存儲

網絡圖片鏈接的格式：

http://www.example.com/picture.jpg

國家地理：

http://www.nationalgeographic.com.cn/

選擇一張圖片鏈接：

http://image.nationalgeographic.com.cn/2017/0704/20170704030835566.jpg

圖片爬取全代碼import requestsimport osurl = "http://image.nationalgeographic.com.cn/2017/0704/20170704030835566.jpg"root = "D://pics//"path = root + url.split('/')[-1]try: if not os.path.exists(root):  os.mkdir(root) if not os.path.exists(path):  r = requests.get(url)  with open(path,'wb') as f:   f.write(r.content)   f.close()   print("文件保存成功") else:  print("文件已存在")except: print("爬取失敗")

5、IP地址歸屬地的自動查詢

www.ip138.com IP查詢

http://ip138.com/ips138.asp?ip=ipaddress

http://m.ip138.com/ip.asp?ip=ipaddress

import requestsurl = "http://m.ip138.com/ip.asp?ip="ip = "220.204.80.112"try: r = requests.get(url + ip) r.raise_for_status() r.encoding = r.apparent_encoding print(r.text[1900:])except: print("爬取失敗")

# 使用IDLE>>> import requests>>> url ="http://m.ip138.com/ip.asp?ip=">>> ip = "220.204.80.112">>> r = requests.get(url + ip)>>> r.status_code>>> r.text

以上這篇Python網絡爬蟲與信息提取(實例講解)就是小編分享給大家的全部內容了，希望能給大家一個參考，也希望大家多多支持VEVB武林網。

上一篇：Python開發的HTTP庫requests詳解

下一篇：在python3環境下的Django中使用MySQL數據庫的實例

學習交流

解決內存不足妙方

解決內存不足妙方...

熱門圖片

猜你喜歡的新聞

猜你喜歡的關注

新聞熱點

雷軍2020新年全員信：“5G+AIoT”五年投500億

2020-01-03 21:43:53

春運售票超3億張！售票總量再創歷史新高

2020-01-03 20:41:46

Windows10市場份額全球第一微軟是否再無敵手？

2020-01-03 20:31:47

比爾蓋茨一次錯誤，付出2.8萬億的代價

2020-01-02 08:44:34

長江迎來最長禁漁期：十年禁漁，方才有魚

2020-01-02 08:28:02

快手封殺淘寶？回應：系統升級，淘寶商品暫無法審核

2020-01-01 22:50:39

疑難解答

圖片精選

網友關注

国产探花免费观看_亚洲丰满少妇自慰呻吟_97日韩有码在线_资源在线日韩欧美_一区二区精品毛片,辰东完美世界有声小说,欢乐颂第一季,yy玄幻小说排行榜完本

Python網絡爬蟲與信息提取(實例講解)