国产探花免费观看_亚洲丰满少妇自慰呻吟_97日韩有码在线_资源在线日韩欧美_一区二区精品毛片,辰东完美世界有声小说,欢乐颂第一季,yy玄幻小说排行榜完本

首頁 > 學院 > 開發設計 > 正文

爬蟲下載百度貼吧圖片

2019-11-14 17:07:10
字體:
來源:轉載
供稿:網友

本次爬取的貼吧是百度的美女吧,給廣大男同胞們一些激勵

在爬取之前需要在瀏覽器先登錄百度貼吧的帳號,各位也可以在代碼中使用post提交或者加入cookie

 

爬行地址:http://tieba.baidu.com/f?kw=%E7%BE%8E%E5%A5%B3&ie=utf-8&pn=0

#-*- coding:utf-8 -*-
import urllib2
import re
import requests
from lxml import etree

這些是要導入的庫,代碼并沒有使用正則,使用的是xpath,正則困難的童鞋可以嘗試使用下

推薦各位先使用基本庫來寫,這樣可以學習到更多



links=[]    #遍歷url的地址
k=1    
PRint u'請輸入最后的頁數:'
endPage=int(raw_input())    #最終的頁數  (r'/d+(?=/s*頁) 這是一個比較通用的正則抓取總頁數的代碼,當然最后要group

#這里是手動輸入頁數,避免內容太多


for j in range(0,endPage):
    url='http://tieba.baidu.com/f?kw=%E7%BE%8E%E5%A5%B3&ie=utf-8&pn='+str(j)      #頁數的url地址
    html=urllib2.urlopen(url).read()                #讀取首頁的內容
    selector=etree.HTML(html)              #轉換為xml,用于在接下來識別
    links=selector.xpath('//div/a[@class="j_th_tit"]/@href')        #抓取當前頁面的所有帖子的url

#大家可以使用瀏覽器自帶的源碼查看工具,在指定目標處查看元素,這樣更快捷


    for i in links:
        url1="http://tieba.baidu.com"+i      #因為爬取到的地址是相對地址,所以要加上百度的domain
        html2=urllib2.urlopen(url1).read()      #讀取當前頁面的內容
        selector=etree.HTML(html2)          #轉換為xml用于識別
        link=selector.xpath('//img[@class="BDE_Image"]/@src')    #抓取圖片,各位也可以更換為正則,或者其他你想要的內容

 

#此處就是遍歷下載


        for each in link:
            #print each
            print u'正在下載%d'%k
            fp=open('image/'+str(k)+'.bmp','wb')      #下載在當前目錄下 image文件夾內,圖片格式為bmp
            image1=urllib2.urlopen(each).read()        #讀取圖片的內容
            fp.write(image1)                  #寫入圖片
            fp.close()
            k+=1    #k就是文件的名字,每下載一個文件就加1


print u'下載完成!'

 

如果想要爬取其他站點的內容,大家可以參考一下


發表評論 共有條評論
用戶名: 密碼:
驗證碼: 匿名發表
主站蜘蛛池模板: 马公市| 迭部县| 濮阳市| 威信县| 丽江市| 兴义市| 齐齐哈尔市| 盐亭县| 孝义市| 娱乐| 中牟县| 巴彦淖尔市| 南华县| 石首市| 宁河县| 双峰县| 沙湾县| 互助| 南汇区| 博罗县| 平果县| 荆门市| 临沭县| 于都县| 卫辉市| 韶关市| 攀枝花市| 高雄县| 马尔康县| 怀宁县| 拉萨市| 华容县| 云安县| 城步| 南京市| 蚌埠市| 龙口市| 铅山县| 湘潭县| 平邑县| 沧州市|