国产探花免费观看_亚洲丰满少妇自慰呻吟_97日韩有码在线_资源在线日韩欧美_一区二区精品毛片,辰东完美世界有声小说,欢乐颂第一季,yy玄幻小说排行榜完本

首頁(yè) > 編程 > Python > 正文

編寫(xiě)Python爬蟲(chóng)抓取暴走漫畫(huà)上gif圖片的實(shí)例分享

2019-11-25 16:50:00
字體:
來(lái)源:轉(zhuǎn)載
供稿:網(wǎng)友

本文要介紹的爬蟲(chóng)是抓取暴走漫畫(huà)上的GIF趣圖,方便離線(xiàn)觀看。爬蟲(chóng)用的是python3.3開(kāi)發(fā)的,主要用到了urllib、request和BeautifulSoup模塊。

urllib模塊提供了從萬(wàn)維網(wǎng)中獲取數(shù)據(jù)的高層接口,當(dāng)我們用urlopen()打開(kāi)一個(gè)URL時(shí),就相當(dāng)于我們用Python內(nèi)建的open()打開(kāi)一個(gè)文件。但不同的是,前者接收一個(gè)URL作為參數(shù),并且沒(méi)有辦法對(duì)打開(kāi)的文件流進(jìn)行seek操作(從底層的角度看,因?yàn)閷?shí)際上操作的是socket,所以理所當(dāng)然地沒(méi)辦法進(jìn)行seek操作),而后者接收的是一個(gè)本地文件名。

Python的BeautifulSoup模塊,可以幫助你實(shí)現(xiàn)HTML和XML的解析
先說(shuō)一下,一般寫(xiě)網(wǎng)頁(yè)爬蟲(chóng),即抓取網(wǎng)頁(yè)的html源碼等內(nèi)容,然后分析,提取相應(yīng)的內(nèi)容。
這種分析html內(nèi)容的工作,如果只是用普通的正則表達(dá)式re模塊去一點(diǎn)點(diǎn)匹配的話(huà),對(duì)于內(nèi)容簡(jiǎn)單點(diǎn)的網(wǎng)頁(yè)分析,還是基本夠用。
但是對(duì)于工作量很大,要解析內(nèi)容很繁雜的html,那么用re模塊,就會(huì)發(fā)現(xiàn)無(wú)法實(shí)現(xiàn),或很難實(shí)現(xiàn)。
而使用beautifulsoup模塊去幫你實(shí)現(xiàn)分析html源碼的工作的話(huà),你就會(huì)發(fā)現(xiàn),事情變得如此簡(jiǎn)單,極大地提高了分析html源碼的效率。
注:BeautifulSoup是第三方庫(kù),我使用的是bs4。urllib2在python3中被分配到了urllib.request中,文檔中的原文如下。
Note:The urllib2 module has been split across several modules in Python 3 named urllib.requestand urllib.error.
爬蟲(chóng)源代碼如下

# -*- coding: utf-8 -*-import urllib.requestimport bs4,ospage_sum = 1 #設(shè)置下載頁(yè)數(shù)path = os.getcwd()path = os.path.join(path,'暴走GIF')if not os.path.exists(path):  os.mkdir(path)                 #創(chuàng)建文件夾url = "http://baozoumanhua.com/gif/year"   #url地址headers = {                     #偽裝瀏覽器  'User-Agent':'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko)'         ' Chrome/32.0.1700.76 Safari/537.36'}for count in range(page_sum):  req = urllib.request.Request(    url = url+str(count+1),    headers = headers  )  print(req.full_url)  content = urllib.request.urlopen(req).read()  soup = bs4.BeautifulSoup(content)          # BeautifulSoup  img_content = soup.findAll('img',attrs={'style':'width:460px'})  url_list = [img['src'] for img in img_content]   #列表推導(dǎo) url  title_list = [img['alt'] for img in img_content]  #圖片名稱(chēng)  for i in range(url_list.__len__()) :    imgurl = url_list[i]    filename = path + os.sep +title_list[i] + ".gif"    print(filename+":"+imgurl)             #打印下載信息    urllib.request.urlretrieve(imgurl,filename)    #下載圖片

在第15行可以修改下載頁(yè)數(shù),將此文件保存為baozougif.py,使用命令python baozougif.py運(yùn)行后在同目錄下會(huì)生成「暴走GIF」的文件夾,所有的圖片會(huì)自動(dòng)下載到該目錄中。

發(fā)表評(píng)論 共有條評(píng)論
用戶(hù)名: 密碼:
驗(yàn)證碼: 匿名發(fā)表
主站蜘蛛池模板: 富宁县| 原阳县| 瓮安县| 枣庄市| 石渠县| 潜江市| 广丰县| 南溪县| 永康市| 梁河县| 大姚县| 哈巴河县| 德惠市| 东方市| 汝城县| 乐业县| 上林县| 随州市| 永济市| 呈贡县| 泗水县| 茶陵县| 霍林郭勒市| 康马县| 莫力| 东辽县| 通海县| 巴里| 大冶市| 沙田区| 房产| 长宁区| 汉阴县| 台东市| 榆树市| 益阳市| 营山县| 平罗县| 浦县| 海原县| 乌什县|