国产探花免费观看_亚洲丰满少妇自慰呻吟_97日韩有码在线_资源在线日韩欧美_一区二区精品毛片,辰东完美世界有声小说,欢乐颂第一季,yy玄幻小说排行榜完本

首頁 > 編程 > Python > 正文

使用Python的urllib和urllib2模塊制作爬蟲的實(shí)例教程

2020-01-04 17:49:56
字體:
供稿:網(wǎng)友
這篇文章主要介紹了使用Python的urllib和urllib2模塊制作爬蟲的實(shí)例教程,展現(xiàn)了這兩個(gè)常用爬蟲制作模塊的基本用法,極度推薦!需要的朋友可以參考下
 

urllib
學(xué)習(xí)python完基礎(chǔ),有些迷茫.眼睛一閉,一種空白的窒息源源不斷而來.還是缺少練習(xí),遂拿爬蟲來練練手.學(xué)習(xí)完斯巴達(dá)python爬蟲課程后,將心得整理如下,供后續(xù)翻看.整篇筆記主要分以下幾個(gè)部分:

  • 1.做一個(gè)簡(jiǎn)單的爬蟲程序
  • 2.小試牛刀--抓取百度貼吧圖片
  • 3.總結(jié)

1.做一個(gè)簡(jiǎn)單的爬蟲程序
首先環(huán)境描述

  • Device: Mba 2012 Yosemite 10.10.1
  • Python: python 2.7.9
  • 編輯器: Sublime Text 3

這個(gè)沒有什么好說的,直接上代碼吧!

'''@ urllib為python自帶的一個(gè)網(wǎng)絡(luò)庫@ urlopen為urllib的一個(gè)方法,用于打開一個(gè)連接并抓取網(wǎng)頁, 然后通過read()方法把值賦給read()'''import urlliburl = "http://www.lifevc.com"#多嘴兩句,為什么要選lifevc呢,主要是最近它很惹我.html = urllib.urlopen(url)content = html.read()html.close()#可以通過print打印出網(wǎng)頁內(nèi)容print content

很簡(jiǎn)單,基本上沒有可說的,這個(gè)也就是python的魅力,幾行代碼就完成.
當(dāng)然我們僅僅抓取網(wǎng)頁,沒有實(shí)在的價(jià)值.接下來我們就開始做一點(diǎn)有意義的事情.

2.小試牛刀
抓取百度貼吧圖片
其實(shí)也很簡(jiǎn)單,因?yàn)橐トD片,還需要先分析一下網(wǎng)頁源代碼
(這里以知道基本html知識(shí),瀏覽器以chrome為例)
如圖,這里簡(jiǎn)要說下步驟,請(qǐng)參考.

打開網(wǎng)頁,右鍵點(diǎn)擊,選擇"inspect Element"(最下面這一項(xiàng))
點(diǎn)擊下面彈起來的框框最左邊那個(gè)問號(hào),問號(hào)會(huì)變成藍(lán)色
移動(dòng)鼠標(biāo)去點(diǎn)擊我們想要抓取的圖片(一個(gè)萌妹子)
如圖,我們就可以圖片在源碼中的位置了

使用Python的urllib和urllib2模塊制作爬蟲的實(shí)例教程

下面將源碼相關(guān)拷貝出來

<img class="BDE_Image" src="http://imgsrc.baidu.com/forum/w%3D580/sign=3d5aacaab21c8701d6b6b2ee177e9e6e/17a6d439b6003af329aece2e342ac65c1138b6d8.jpg" height="840" width="560" style="cursor: url(http://tb2.bdstatic.com/tb/static-pb/img/cur_zin.cur), pointer;">

經(jīng)分析和對(duì)比(這里略掉),基本上可以看到要抓取的圖片幾個(gè)特征:

  • 在img標(biāo)簽下
  • 在名為BDE_Image的類下面
  • 圖片格式為jpg

正則表達(dá)式后續(xù)我會(huì)更新,請(qǐng)關(guān)注

依照上述判斷,直接上代碼

'''@本程序用來下載百度貼吧圖片@re 為正則說明庫'''import urllibimport re# 獲取網(wǎng)頁html信息url = "http://tieba.baidu.com/p/2336739808"html = urllib.urlopen(url)content = html.read()html.close()# 通過正則匹配圖片特征,并獲取圖片鏈接img_tag = re.compile(r'class="BDE_Image" src="(.+?/.jpg)"')img_links = re.findall(img_tag, content)# 下載圖片 img_counter為圖片計(jì)數(shù)器(文件名)img_counter = 0for img_link in img_links:  img_name = '%s.jpg' % img_counter  urllib.urlretrieve(img_link, "//Users//Sean//Downloads//tieba//%s" %img_name)  img_counter += 1

如圖,我們就抓取你懂的圖片

使用Python的urllib和urllib2模塊制作爬蟲的實(shí)例教程

3.總結(jié)
如上兩節(jié),我們就很輕松的就可以網(wǎng)頁或者圖片.
補(bǔ)充一點(diǎn)小技巧,如果遇到不是很明白的庫或者方法,可以通過以下方法進(jìn)行初步了解.

  • dir(urllib)                     #查看當(dāng)前庫有哪些方法
  • help(urllib.urlretrieve)        #查看跟當(dāng)前方法相關(guān)的作用或者參數(shù),官方比較權(quán)威

或者h(yuǎn)ttps://docs.python.org/2/library/index.html進(jìn)項(xiàng)相關(guān)搜索.

當(dāng)然百度也可以,但是效率太低.建議使用 http://xie.lu 進(jìn)行相關(guān)搜索(你懂了,絕對(duì)滿意).
這里我們講解如何抓取網(wǎng)頁和下載圖片,在下面我們會(huì)講解如何抓取有限制抓取的網(wǎng)站.

urllib2
上面我們講解如何抓取網(wǎng)頁和下載圖片,在下一節(jié)里面我們會(huì)講解如何抓取有限制抓取的網(wǎng)站
首先,我們依然用我們上一節(jié)課的方法去抓取一個(gè)大家都用來舉例的網(wǎng)站<blog.cndn.net>,本文主要分以下幾個(gè)部分:

  • 1.抓取受限網(wǎng)頁
  • 2.對(duì)代碼進(jìn)行一些優(yōu)化

1.抓取受限網(wǎng)頁

首先使用我們上一節(jié)學(xué)到的知識(shí)測(cè)試一下:

'''@本程序用來抓取blog.csdn.net網(wǎng)頁'''import urlliburl = "http://blog.csdn.net/FansUnion"html = urllib.urlopen(url)#getcode()方法為返回Http狀態(tài)碼print html.getcode()html.close()#輸出
403

此處我們的輸出為403,代表拒絕訪問;同理200表示請(qǐng)求成功完成;404表示網(wǎng)址未找到.
可見csdn已做了相關(guān)屏蔽,通過第一節(jié)的方法是無法獲取網(wǎng)頁,在這里我們需要啟動(dòng)一個(gè)新的庫:urllib2
但是我們也看到瀏覽器可以發(fā)那個(gè)文,是不是我們模擬瀏覽器操作,就可以獲取網(wǎng)頁信息.
老辦法,我們先來看看瀏覽器是如何提交請(qǐng)求給csdn服務(wù)器的.首先簡(jiǎn)述一下方法:

  • 打開網(wǎng)頁,右鍵點(diǎn)擊,選擇"inspect Element"(最下面這一項(xiàng))
  • 點(diǎn)擊下面彈起來的框框的Network選項(xiàng)卡
  • 刷新網(wǎng)頁,就可以看到Network選項(xiàng)卡抓取了很多信息
  • 找到其中一個(gè)信息展開,就能看到請(qǐng)求包的Header

使用Python的urllib和urllib2模塊制作爬蟲的實(shí)例教程

以下就是整理后的Header信息

Request Method:GETHost:blog.csdn.netReferer:http://blog.csdn.net/?ref=toolbar_logoUser-Agent:Mozilla/5.0 (Macintosh; Intel Mac OS X 10_10_1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/38.0.2125.104 Safari/537.36

然后根據(jù)提取的Header信息,利用urllib2的Request方法模擬瀏覽器向服務(wù)器提交請(qǐng)求,代碼如下:

# coding=utf-8'''@本程序用來抓取受限網(wǎng)頁(blog.csdn.net)@User-Agent:客戶端瀏覽器版本@Host:服務(wù)器地址@Referer:跳轉(zhuǎn)地址@GET:請(qǐng)求方法為GET'''import urllib2url = "http://blog.csdn.net/FansUnion"#定制自定義Header,模擬瀏覽器向服務(wù)器提交請(qǐng)求req = urllib2.Request(url)req.add_header('User-Agent', 'Mozilla/5.0 (Windows NT 6.3; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/39.0.2171.95 Safari/537.36')req.add_header('Host', 'blog.csdn.net')req.add_header('Referer', 'http://blog.csdn.net')req.add_header('GET', url)#下載網(wǎng)頁html并打印html = urllib2.urlopen(req)content = html.read()print contenthtml.close()

呵呵,你限制我,我就跳過你的限制.據(jù)說只要瀏覽器能夠訪問的,就能夠通過爬蟲抓取.

2.對(duì)代碼進(jìn)行一些優(yōu)化
簡(jiǎn)化提交Header方法
發(fā)現(xiàn)每次寫那么多req.add_header對(duì)自己來說是一種折磨,有沒有什么方法可以只要復(fù)制過來就使用.答案是肯定的.

#input:help(urllib2.Request)#output(因篇幅關(guān)系,只取__init__方法)__init__(self, url, data=None, headers={}, origin_req_host=None, unverifiable=False)通過觀察,我們發(fā)現(xiàn)headers={},就是說可以以字典的方式提交header信息.那就動(dòng)手試試咯!!#只取自定義Header部分代碼csdn_headers = {  "User-Agent": "Mozilla/5.0 (Windows NT 6.3; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/39.0.2171.95 Safari/537.36",  "Host": "blog.csdn.net",  'Referer': 'http://blog.csdn.net',  "GET": url  }req = urllib2.Request(url,headers=csdn_headers)

發(fā)現(xiàn)是不是很簡(jiǎn)單,在這里感謝斯巴達(dá)的無私賜教.

提供動(dòng)態(tài)頭部信息
如果按照上述方法進(jìn)行抓取,很多時(shí)候會(huì)因?yàn)樘峤恍畔⑦^于單一,被服務(wù)器認(rèn)為是機(jī)器爬蟲進(jìn)行拒絕.
那我們是不是有一些更為智能的方法提交一些動(dòng)態(tài)的數(shù)據(jù),答案肯定也是肯定的.而且很簡(jiǎn)單,直接上代碼!

'''@本程序是用來動(dòng)態(tài)提交Header信息@random 動(dòng)態(tài)庫,詳情請(qǐng)參考<https://docs.python.org/2/library/random.html>'''# coding=utf-8import urllib2import randomurl = 'http://www.lifevc.com/'my_headers = [  'Mozilla/4.0 (compatible; MSIE 8.0; Windows NT 5.1; Trident/4.0; .NET CLR 2.0.50727; .NET CLR 3.0.04506.30; .NET CLR 3.0.04506.648)',  'Mozilla/4.0 (compatible; MSIE 8.0; Windows NT 5.1; Trident/4.0; .NET CLR 2.0.50727; InfoPath.1',  'Mozilla/4.0 (compatible; GoogleToolbar 5.0.2124.2070; Windows 6.0; MSIE 8.0.6001.18241)',  'Mozilla/5.0 (compatible; MSIE 9.0; Windows NT 6.1; WOW64; Trident/5.0)',  'Mozilla/5.0 (compatible; MSIE 9.0; Windows NT 6.1; WOW64; Trident/5.0; Sleipnir/2.9.8)',  #因篇幅關(guān)系,此處省略N條]random_header = random.choice(headers)# 可以通過print random_header查看提交的header信息req = urllib2.Request(url)req.add_header("User-Agent", random_header)req.add_header('Host', 'blog.csdn.net')req.add_header('Referer', 'http://blog.csdn.net')req.add_header('GET', url)content = urllib2.urlopen(req).read()print content

其實(shí)很簡(jiǎn)單,這樣我們就完成了對(duì)代碼的一些優(yōu)化.


發(fā)表評(píng)論 共有條評(píng)論
用戶名: 密碼:
驗(yàn)證碼: 匿名發(fā)表
主站蜘蛛池模板: 霍林郭勒市| 玉门市| 昌乐县| 丽江市| 嵊州市| 凌云县| 嘉定区| 南阳市| 夏津县| 兴义市| 治多县| 克山县| 江源县| 仁布县| 怀柔区| 新昌县| 三门县| 南阳市| 阜新市| 塘沽区| 白河县| 荆州市| 嘉峪关市| 新宁县| 阳泉市| 项城市| 巴林右旗| 屏南县| 绥宁县| 磐安县| 盐山县| 延吉市| 临湘市| 泊头市| 三河市| 长乐市| 宝丰县| 彩票| 怀柔区| 云林县| 彩票|