国产探花免费观看_亚洲丰满少妇自慰呻吟_97日韩有码在线_资源在线日韩欧美_一区二区精品毛片,辰东完美世界有声小说,欢乐颂第一季,yy玄幻小说排行榜完本

首頁 > 編程 > Python > 正文

Python使用Scrapy爬蟲框架全站爬取圖片并保存本地的實現代碼

2020-01-04 15:46:35
字體:
來源:轉載
供稿:網友

大家可以在Github上clone全部源碼。

Github:https://github.com/williamzxl/Scrapy_CrawlMeiziTu

Scrapy官方文檔:http://scrapy-chs.readthedocs.io/zh_CN/latest/index.html

基本上按照文檔的流程走一遍就基本會用了。

Step1:

在開始爬取之前,必須創(chuàng)建一個新的Scrapy項目。 進入打算存儲代碼的目錄中,運行下列命令:

scrapy startproject CrawlMeiziTu

該命令將會創(chuàng)建包含下列內容的 tutorial 目錄:

CrawlMeiziTu/ scrapy.cfg CrawlMeiziTu/  __init__.py  items.py  pipelines.py  settings.py     middlewares.py  spiders/   __init__.py   ...cd CrawlMeiziTuscrapy genspider Meizitu http://www.meizitu.com/a/list_1_1.html

該命令將會創(chuàng)建包含下列內容的 tutorial 目錄:

CrawlMeiziTu/ scrapy.cfg CrawlMeiziTu/     __init__.py  items.py  pipelines.py  settings.py     middlewares.py  spiders/       Meizitu.py   __init__.py   ...

我們主要編輯的就如下圖箭頭所示:

python,爬蟲,爬取圖片,scrapy

main.py是后來加上的,加了兩條命令,

from scrapy import cmdlinecmdline.execute("scrapy crawl Meizitu".split())

主要為了方便運行。

Step2:編輯Settings,如下圖所示

 BOT_NAME = 'CrawlMeiziTu'  SPIDER_MODULES = ['CrawlMeiziTu.spiders'] NEWSPIDER_MODULE = 'CrawlMeiziTu.spiders' ITEM_PIPELINES = { 'CrawlMeiziTu.pipelines.CrawlmeizituPipeline': 300, } IMAGES_STORE = 'D://pic2' DOWNLOAD_DELAY = 0.3 USER_AGENT = 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.36' ROBOTSTXT_OBEY = True

主要設置USER_AGENT,下載路徑,下載延遲時間

python,爬蟲,爬取圖片,scrapy

Step3:編輯Items.

Items主要用來存取通過Spider程序抓取的信息。由于我們爬取妹子圖,所以要抓取每張圖片的名字,圖片的連接,標簽等等

# -*- coding: utf-8 -*-# Define here the models for your scraped items## See documentation in:# http://doc.scrapy.org/en/latest/topics/items.htmlimport scrapyclass CrawlmeizituItem(scrapy.Item): # define the fields for your item here like: # name = scrapy.Field() #title為文件夾名字 url = scrapy.Field() tags = scrapy.Field() #圖片的連接 src = scrapy.Field() #alt為圖片名字 src="http://files.vevb.com/file_images/article/201803/2018030410521712.jpg" />

Step4:編輯Pipelines

Pipelines主要對items里面獲取的信息進行處理。比如說根據title創(chuàng)建文件夾或者圖片的名字,根據圖片鏈接下載圖片。

# -*- coding: utf-8 -*-import osimport requestsfrom CrawlMeiziTu.settings import IMAGES_STOREclass CrawlmeizituPipeline(object): def process_item(self, item, spider):  fold_name = "".join(item['title'])  header = {   'USER-Agent': 'User-Agent:Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.36',   'Cookie': 'b963ef2d97e050aaf90fd5fab8e78633',   #需要查看圖片的cookie信息,否則下載的圖片無法查看  }  images = []  # 所有圖片放在一個文件夾下  dir_path = '{}'.format(IMAGES_STORE)  if not os.path.exists(dir_path) and len(item['src']) != 0:   os.mkdir(dir_path)  if len(item['src']) == 0:   with open('..//check.txt', 'a+') as fp:    fp.write("".join(item['title']) + ":" + "".join(item['url']))    fp.write("/n")  for jpg_url, name, num in zip(item['src'], item['alt'],range(0,100)):   file_name = name + str(num)   file_path = '{}//{}'.format(dir_path, file_name)   images.append(file_path)   if os.path.exists(file_path) or os.path.exists(file_name):    continue   with open('{}//{}.jpg'.format(dir_path, file_name), 'wb') as f:    req = requests.get(jpg_url, headers=header)    f.write(req.content)  return item

python,爬蟲,爬取圖片,scrapy

Step5:編輯Meizitu的主程序。

最重要的主程序:

# -*- coding: utf-8 -*-import scrapyfrom CrawlMeiziTu.items import CrawlmeizituItem#from CrawlMeiziTu.items import CrawlmeizituItemPageimport timeclass MeizituSpider(scrapy.Spider): name = "Meizitu" #allowed_domains = ["meizitu.com/"] start_urls = [] last_url = [] with open('..//url.txt', 'r') as fp:  crawl_urls = fp.readlines()  for start_url in crawl_urls:   last_url.append(start_url.strip('/n')) start_urls.append("".join(last_url[-1])) def parse(self, response):  selector = scrapy.Selector(response)  #item = CrawlmeizituItemPage()  next_pages = selector.xpath('//*[@id="wp_page_numbers"]/ul/li/a/@href').extract()  next_pages_text = selector.xpath('//*[@id="wp_page_numbers"]/ul/li/a/text()').extract()  all_urls = []  if '下一頁' in next_pages_text:   next_url = "http://www.meizitu.com/a/{}".format(next_pages[-2])   with open('..//url.txt', 'a+') as fp:    fp.write('/n')    fp.write(next_url)    fp.write("/n")   request = scrapy.http.Request(next_url, callback=self.parse)   time.sleep(2)   yield request  all_info = selector.xpath('//h3[@class="tit"]/a')  #讀取每個圖片夾的連接  for info in all_info:   links = info.xpath('//h3[@class="tit"]/a/@href').extract()  for link in links:   request = scrapy.http.Request(link, callback=self.parse_item)   time.sleep(1)   yield request  # next_link = selector.xpath('//*[@id="wp_page_numbers"]/ul/li/a/@href').extract()  # next_link_text = selector.xpath('//*[@id="wp_page_numbers"]/ul/li/a/text()').extract()  # if '下一頁' in next_link_text:  #  nextPage = "http://www.meizitu.com/a/{}".format(next_link[-2])  #  item['page_url'] = nextPage  #  yield item   #抓取每個文件夾的信息 def parse_item(self, response):   item = CrawlmeizituItem()   selector = scrapy.Selector(response)   image_title = selector.xpath('//h2/a/text()').extract()   image_url = selector.xpath('//h2/a/@href').extract()   image_tags = selector.xpath('//div[@class="metaRight"]/p/text()').extract()   if selector.xpath('//*[@id="picture"]/p/img/@src').extract():   image_src = selector.xpath('//*[@id="picture"]/p/img/@src').extract()   else:   image_src = selector.xpath('//*[@id="maincontent"]/div/p/img/@src').extract()   if selector.xpath('//*[@id="picture"]/p/img/@alt').extract():    pic_name = selector.xpath('//*[@id="picture"]/p/img/@alt').extract()   else:   pic_name = selector.xpath('//*[@id="maincontent"]/div/p/img/@alt').extract()   #//*[@id="maincontent"]/div/p/img/@alt   item['title'] = image_title   item['url'] = image_url   item['tags'] = image_tags   item['src'] = image_src   item['alt'] = pic_name   print(item)   time.sleep(1)   yield item

python,爬蟲,爬取圖片,scrapy

總結

以上所述是小編給大家介紹的Python使用Scrapypython/105685.html">爬蟲框架全站爬取圖片并保存本地的實現代碼,希望對大家有所幫助,如果大家啊有任何疑問歡迎給我留言,小編會及時回復大家的!


注:相關教程知識閱讀請移步到python教程頻道。
發(fā)表評論 共有條評論
用戶名: 密碼:
驗證碼: 匿名發(fā)表
主站蜘蛛池模板: 嘉黎县| 和硕县| 河池市| 琼结县| 和田县| 迁西县| 安吉县| 壤塘县| 汶川县| 醴陵市| 镇沅| 吴旗县| 晋江市| 聂拉木县| 淮阳县| 通江县| 台北市| 渭源县| 永昌县| 东源县| 杂多县| 泾源县| 建阳市| 马公市| 乐至县| 新疆| 丹凤县| 勃利县| 安塞县| 缙云县| 大理市| 靖宇县| 武功县| 望城县| 明光市| 清涧县| 张家川| 甘南县| 南充市| 崇文区| 友谊县|