Scrapy框架使用的基本知識

2020-01-04 14:17:27

字體：大中小

來源：轉載

供稿：網友

scrapy是一個基于Twisted的異步處理框架，可擴展性很強。優點此處不再一一贅述。

下面介紹一些概念性知識，幫助大家理解scrapy。

一、數據流向

要想熟練掌握這個框架，一定要明白數據的流向是怎么一個過程。總結如下：

1.引擎先打開網站，請求url。

2.引擎通過調度器以Request形式調度url。

3.引擎請求下一個url。

4.調度器將url通過Downloader Middlewares發送給引擎

5.Downloader 生成response，通過Downloader Middlewares發送給引擎

6.引擎接收Response 通過spiderMiddleware發送給spider處理

7.spider處理response

8.引擎將spider處理的item給ItemPipeline 然后將新的Request給調度器。

二、各個結構的作用

DownloderMiddleware

調度器會從隊列之中拿出Request發送給Downloader執行下載，這個過程會經過DownloaderMiddleware的處理。

作用的位置有兩個：

在調度器調出Request發送給Downloader之前。
下載之后生成Response發送給spider之前。

核心方法有三個：

process_request(request,spider)

Request 到達Downloader之前，就會被調用

參數介紹：

request ：Request對象，被處理的Request。
spider：spider對象，上面被處理的Request對應的spider。

返回值：

1.返回None 調用別的process_request()方法，直至將Request執行得到Response才會結束。

2.返回Response對象，低優先級的process_request()和process_exception不調用。

3.返回request對象，低優先級的process_request()停止執行，返回新的Request。

process_response(request,response,spider)

作用位置：

Downloader 執行Request之后，會得到對應的Reponse ，scrapy 引擎會將Response發送給spider進行解析，發送之前調用這個方法對Response進行處理。

返回值的情況：

1.返回Request低優先級的process_respons()不調用。

2.返回response低優先級的process_respons()繼續調用。

process_exception（request,exception,spider）

此函數主要是用來處理異常的。

spiderMiddleware

作用位置：

Downloader生成Response之后會發送給spider，
在發送之前，會經過spiderMiddleware處理。

核心方法：

process_soider_input(response,spider)

返回值：

1.返回None

繼續處理Response，調用所有的spiderMiddleware，知道spider處理

2.跑出異常

直接調用Request的errback（）方法，使用process_spider_output()處理。

process_spider_output(response,result,spider)

當spider處理Response返回結果時，被調用。

process_spider_exception(response,exception,spider)

返回值：none

繼續處理response，返回一個可迭代對象，process_spider_output()方法被調用。

process_start_request(start_requests,spider)

以spider啟動的Request為參數被調用，必須返回request。

總結

以上就是這篇文章的全部內容了，希望本文的內容對大家的學習或者工作具有一定的參考學習價值，謝謝大家對VEVB武林網的支持。

注：相關教程知識閱讀請移步到python教程頻道。

上一篇：Windows系統下PhantomJS的安裝和基本用法

下一篇：python去掉 unicode 字符串前面的u方法

學習交流

解決內存不足妙方

解決內存不足妙方...

熱門圖片

猜你喜歡的新聞

猜你喜歡的關注

新聞熱點

雷軍2020新年全員信：“5G+AIoT”五年投500億

2020-01-03 21:43:53

春運售票超3億張！售票總量再創歷史新高

2020-01-03 20:41:46

Windows10市場份額全球第一微軟是否再無敵手？

2020-01-03 20:31:47

比爾蓋茨一次錯誤，付出2.8萬億的代價

2020-01-02 08:44:34

長江迎來最長禁漁期：十年禁漁，方才有魚

2020-01-02 08:28:02

快手封殺淘寶？回應：系統升級，淘寶商品暫無法審核

2020-01-01 22:50:39

疑難解答

圖片精選

網友關注

国产探花免费观看_亚洲丰满少妇自慰呻吟_97日韩有码在线_资源在线日韩欧美_一区二区精品毛片,辰东完美世界有声小说,欢乐颂第一季,yy玄幻小说排行榜完本

Scrapy框架使用的基本知識