国产探花免费观看_亚洲丰满少妇自慰呻吟_97日韩有码在线_资源在线日韩欧美_一区二区精品毛片,辰东完美世界有声小说,欢乐颂第一季,yy玄幻小说排行榜完本

首頁 > 編程 > Python > 正文

python實現(xiàn)爬蟲下載美女圖片

2019-11-25 17:11:24
字體:
供稿:網(wǎng)友

本次爬取的貼吧是百度的美女吧,給廣大男同胞們一些激勵

在爬取之前需要在瀏覽器先登錄百度貼吧的帳號,各位也可以在代碼中使用post提交或者加入cookie

爬行地址:http://tieba.baidu.com/f?kw=%E7%BE%8E%E5%A5%B3&ie=utf-8&pn=0

#-*- coding:utf-8 -*-import urllib2import reimport requestsfrom lxml import etree這些是要導(dǎo)入的庫,代碼并沒有使用正則,使用的是xpath,正則困難的童鞋可以嘗試使用下推薦各位先使用基本庫來寫,這樣可以學(xué)習(xí)到更多l(xiāng)inks=[]    #遍歷url的地址k=1    print u'請輸入最后的頁數(shù):'endPage=int(raw_input())    #最終的頁數(shù)  (r'/d+(?=/s*頁) 這是一個比較通用的正則抓取總頁數(shù)的代碼,當(dāng)然最后要group#這里是手動輸入頁數(shù),避免內(nèi)容太多for j in range(0,endPage):  url='http://tieba.baidu.com/f?kw=%E7%BE%8E%E5%A5%B3&ie=utf-8&pn='+str(j)      #頁數(shù)的url地址  html=urllib2.urlopen(url).read()                #讀取首頁的內(nèi)容  selector=etree.HTML(html)              #轉(zhuǎn)換為xml,用于在接下來識別  links=selector.xpath('//div/a[@class="j_th_tit"]/@href')        #抓取當(dāng)前頁面的所有帖子的url#大家可以使用瀏覽器自帶的源碼查看工具,在指定目標(biāo)處查看元素,這樣更快捷  for i in links:    url1="http://tieba.baidu.com"+i      #因為爬取到的地址是相對地址,所以要加上百度的domain    html2=urllib2.urlopen(url1).read()      #讀取當(dāng)前頁面的內(nèi)容    selector=etree.HTML(html2)          #轉(zhuǎn)換為xml用于識別    link=selector.xpath('//img[@class="BDE_Image"]/@src')    #抓取圖片,各位也可以更換為正則,或者其他你想要的內(nèi)容#此處就是遍歷下載    for each in link:      #print each      print u'正在下載%d'%k      fp=open('image/'+str(k)+'.bmp','wb')      #下載在當(dāng)前目錄下 image文件夾內(nèi),圖片格式為bmp      image1=urllib2.urlopen(each).read()        #讀取圖片的內(nèi)容      fp.write(image1)                  #寫入圖片      fp.close()      k+=1    #k就是文件的名字,每下載一個文件就加1print u'下載完成!'

如果想要爬取其他站點的內(nèi)容,大家可以參考一下

發(fā)表評論 共有條評論
用戶名: 密碼:
驗證碼: 匿名發(fā)表
主站蜘蛛池模板: 修武县| 塘沽区| 四平市| 文水县| 阳曲县| 安顺市| 汕头市| 唐山市| 栾城县| 偃师市| 福州市| 苍梧县| 诏安县| 惠安县| 迁西县| 普定县| 肇源县| 德昌县| 高邮市| 延安市| 和龙市| 理塘县| 祁连县| 林甸县| 保定市| 金寨县| 玉溪市| 和政县| 麻阳| 建平县| 云梦县| 丹江口市| 广元市| 博爱县| 五原县| 万荣县| 孙吴县| 青浦区| 大悟县| 衡东县| 壤塘县|