国产探花免费观看_亚洲丰满少妇自慰呻吟_97日韩有码在线_资源在线日韩欧美_一区二区精品毛片,辰东完美世界有声小说,欢乐颂第一季,yy玄幻小说排行榜完本

首頁 > 編程 > Python > 正文

Python抓取框架 Scrapy的架構

2019-11-25 16:37:06
字體:
來源:轉載
供稿:網友

最近在學Python,同時也在學如何使用python抓取數據,于是就被我發現了這個非常受歡迎的Python抓取框架Scrapy,下面一起學習下Scrapy的架構,便于更好的使用這個工具。

一、概述

下圖顯示了Scrapy的大體架構,其中包含了它的主要組件及系統的數據處理流程(綠色箭頭所示)。下面就來一個個解釋每個組件的作用及數據的處理過程。

二、組件

1、Scrapy Engine(Scrapy引擎)

Scrapy引擎是用來控制整個系統的數據處理流程,并進行事務處理的觸發。更多的詳細內容可以看下面的數據處理流程。

2、Scheduler(調度)

調度程序從Scrapy引擎接受請求并排序列入隊列,并在Scrapy引擎發出請求后返還給他們。

3、Downloader(下載器)

下載器的主要職責是抓取網頁并將網頁內容返還給蜘蛛( Spiders)。

4、Spiders(蜘蛛)

蜘蛛是有Scrapy用戶自己定義用來解析網頁并抓取制定URL返回的內容的類,每個蜘蛛都能處理一個域名或一組域名。換句話說就是用來定義特定網站的抓取和解析規則。

蜘蛛的整個抓取流程(周期)是這樣的:

1).首先獲取第一個URL的初始請求,當請求返回后調取一個回調函數。第一個請求是通過調用start_requests()方法。該方法默認從start_urls中的Url中生成請求,并執行解析來調用回調函數。
2).在回調函數中,你可以解析網頁響應并返回項目對象和請求對象或兩者的迭代。這些請求也將包含一個回調,然后被Scrapy下載,然后有指定的回調處理。
3).在回調函數中,你解析網站的內容,同程使用的是Xpath選擇器(但是你也可以使用BeautifuSoup, lxml或其他任何你喜歡的程序),并生成解析的數據項。
4).最后,從蜘蛛返回的項目通常會進駐到項目管道。

5、Item Pipeline(項目管道)

項目管道的主要責任是負責處理有蜘蛛從網頁中抽取的項目,他的主要任務是清晰、驗證和存儲數據。當頁面被蜘蛛解析后,將被發送到項目管道,并經過幾個特定的次序處理數據。每個項目管道的組件都是有一個簡單的方法組成的Python類。他們獲取了項目并執行他們的方法,同時他們還需要確定的是是否需要在項目管道中繼續執行下一步或是直接丟棄掉不處理。

項目管道通常執行的過程有:

1).清洗HTML數據
2).驗證解析到的數據(檢查項目是否包含必要的字段)
3).檢查是否是重復數據(如果重復就刪除)
4).將解析到的數據存儲到數據庫中

6、Downloader middlewares(下載器中間件)

下載中間件是位于Scrapy引擎和下載器之間的鉤子框架,主要是處理Scrapy引擎與下載器之間的請求及響應。它提供了一個自定義的代碼的方式來拓展Scrapy的功能。下載中間器是一個處理請求和響應的鉤子框架。他是輕量級的,對Scrapy盡享全局控制的底層的系統。

7、Spider middlewares(蜘蛛中間件)

蜘蛛中間件是介于Scrapy引擎和蜘蛛之間的鉤子框架,主要工作是處理蜘蛛的響應輸入和請求輸出。它提供一個自定義代碼的方式來拓展Scrapy的功能。蛛中間件是一個掛接到Scrapy的蜘蛛處理機制的框架,你可以插入自定義的代碼來處理發送給蜘蛛的請求和返回蜘蛛獲取的響應內容和項目。

8、Scheduler middlewares(調度中間件)

調度中間件是介于Scrapy引擎和調度之間的中間件,主要工作是處從Scrapy引擎發送到調度的請求和響應。他提供了一個自定義的代碼來拓展Scrapy的功能。

三、數據處理流程

Scrapy的整個數據處理流程有Scrapy引擎進行控制,其主要的運行方式為:

引擎打開一個域名,時蜘蛛處理這個域名,并讓蜘蛛獲取第一個爬取的URL。
引擎從蜘蛛那獲取第一個需要爬取的URL,然后作為請求在調度中進行調度。
引擎從調度那獲取接下來進行爬取的頁面。
調度將下一個爬取的URL返回給引擎,引擎將他們通過下載中間件發送到下載器。
當網頁被下載器下載完成以后,響應內容通過下載中間件被發送到引擎。
引擎收到下載器的響應并將它通過蜘蛛中間件發送到蜘蛛進行處理。
蜘蛛處理響應并返回爬取到的項目,然后給引擎發送新的請求。
引擎將抓取到的項目項目管道,并向調度發送請求。
系統重復第二部后面的操作,直到調度中沒有請求,然后斷開引擎與域之間的聯系。

四、驅動器

Scrapy是由Twisted寫的一個受歡迎的Python事件驅動網絡框架,它使用的是非堵塞的異步處理。

以上就是本文的全部內容,希望對大家的學習有所幫助,也希望大家多多支持武林網。

發表評論 共有條評論
用戶名: 密碼:
驗證碼: 匿名發表
主站蜘蛛池模板: 叙永县| 弋阳县| 汉寿县| 彭泽县| 万荣县| 根河市| 白城市| 永春县| 略阳县| 军事| 翁源县| 荥阳市| 新宾| 玉田县| 房产| 安化县| 宁都县| 全椒县| 宣武区| 理塘县| 锡林浩特市| 南岸区| 高清| 汉川市| 许昌县| 贵德县| 横峰县| 来安县| 新绛县| 抚宁县| 宜宾市| 来凤县| 唐河县| 兰西县| 武山县| 河源市| 伊通| 浦北县| 哈巴河县| 泉州市| 哈巴河县|