(2)分布式下的爬蟲Scrapy應該如何做-關于對Scrapy的反思和核心對象的介紹

2019-11-14 17:01:58

字體：大中小

來源：轉載

供稿：網友

本篇主要介紹對于一個爬蟲框架的思考和，核心部件的介紹，以及常規的思考方法：

一，猜想

我們說的爬蟲，一般至少要包含幾個基本要素：

1.請求發送對象(sender,對于request的封裝，防止被封)

2.解析文檔對象(將請求的網頁當作是html文檔還是字符串)

3.承載所需要的解析對象(標準格式的數據承載者)

4.獲取所需對象后的操作者 (得到對象后，是以文件形式保存還是存入數據庫)

5.整個流程的錯誤處理者(整個流程的異常監控者)

二，驗證

我們來看看Scrapy 提供了哪些核心的對象

基本概念

命令行工具(Command line tools): 學習用于管理Scrapy項目的命令行工具
Items: 定義爬取的數據
Spiders: 編寫爬取網站的規則
選擇器(Selectors): 使用XPath提取網頁的數據
Scrapy終端(Scrapy shell): 在交互環境中測試提取數據的代碼
Item Loaders: 使用爬取到的數據填充item
Item Pipeline: 后處理(Post-PRocess)，存儲爬取的數據
Feed exports: 以不同格式輸出爬取數據到不同的存儲端
Link Extractors: 方便用于提取后續跟進鏈接的類。

refer from :https://scrapy-chs.readthedocs.org/zh_CN/0.24/

基本上我們所設想的對象Scrapy都會包含在里面了

三，爬取

我們知道，一般爬蟲都是按如下規則來爬取數據的

輸入目標網址=> 編寫處理規則(正則表達式或者xpath語法)=>對得到的數據進行處理

Scrapy的做法如下：

1)新建一個項目

以命令行形式切換到需要將代碼放置的文件夾下，然后輸入如下命令：

scrapy startproject VEVb

文件夾下會生成一個VEVb的文件下，切換到該文件夾下（記住切換）

Item.py就是我們所需要數據承載器

修改為如下代碼：

# -*- coding: utf-8 -*-# Define here the models for your scraped items## See documentation in:# http://doc.scrapy.org/en/latest/topics/items.htmlimport scrapyfrom scrapy.item import Field,Itemclass CnblogsItem(scrapy.Item):    # define the fields for your item here like:    # name = scrapy.Field()    Title = Field()    TitleUrl = Field()

在Spider文件夾下添加BasicGroupSpider.py 修改為如下內容

from scrapy.spider import BaseSpiderfrom scrapy.selector import HtmlXPathSelectorfrom VEVb.items import CnblogsItemclass CnblogsSpider(BaseSpider):    name = "VEVb" #spider的名字    allowed_domains = ["VEVb.com"]    start_urls = [        'http://m.survivalescaperooms.com/'        ]  #待抓取的列表    def parse(self, response):        self.log("Fetch douban homepage page: %s" % response.url)        hxs = HtmlXPathSelector(response)        #authors = hxs.select('//a[@class="titlelnk"]')        items = hxs.select('//a[contains(@class, "titlelnk")]')        listitems = []        for author in items:            #print author.select('text()').extract()            item = CnblogsItem()            #property            item['Title'] = author.select('text()').extract()            item['TitleUrl'] =author.select('@href').extract()            listitems.append(item)        return listitems

OK ,回到第一步的命令臺的界面，輸入如下命令

scrapy crawl VEVb --logfile=test.log -o VEVb.json -t json

四，結果

關于里面的代碼功能，自己去理解吧，寫過代碼的人大致都了解。

====>DEMO下載<====

總結：

本次主要分析了爬蟲框架的大致構件，并驗證了我們的猜想，關于python的爬蟲框架有很多，不過像scrapy這樣值得入手和研究的，比較少了，.net下的更少了。

上一篇：python核心編程-第四章-個人筆記

下一篇：2015/9/2Python基礎(7)：元組

學習交流

索泰發布一款GTX 1070 Mini迷你版本:小機

索泰發布一款GTX 1070 Mini迷你版本:小機箱大愛...

熱門圖片

猜你喜歡的新聞

猜你喜歡的關注

新聞熱點

榮耀總裁趙明烏鎮演講：榮耀首款5G手機V30下月發布

2019-10-23 09:17:05

搜狐張朝陽：回歸媒體是搜狐重新崛起的關鍵

2019-10-21 09:20:02

華為輪值董事長郭平：虛擬技術創造現實價值

2019-10-21 09:00:12

滴滴英文服務上線兩周年用戶已超200萬

2019-09-26 08:57:12

華為推出全球至快AI訓練集群Atlas900

2019-09-25 08:46:36

馬斯克：特斯拉正組建中國技術團隊

2019-09-25 08:15:43

疑難解答

圖片精選

網友關注

国产探花免费观看_亚洲丰满少妇自慰呻吟_97日韩有码在线_资源在线日韩欧美_一区二区精品毛片,辰东完美世界有声小说,欢乐颂第一季,yy玄幻小说排行榜完本

(2)分布式下的爬蟲Scrapy應該如何做-關于對Scrapy的反思和核心對象的介紹

基本概念