国产探花免费观看_亚洲丰满少妇自慰呻吟_97日韩有码在线_资源在线日韩欧美_一区二区精品毛片,辰东完美世界有声小说,欢乐颂第一季,yy玄幻小说排行榜完本

首頁(yè) > 學(xué)院 > 開(kāi)發(fā)設(shè)計(jì) > 正文

scrapy 設(shè)置項(xiàng)和一些默認(rèn)值

2019-11-08 03:23:14
字體:
來(lái)源:轉(zhuǎn)載
供稿:網(wǎng)友

描述

在Scrapy組件的特性可以用Scrapy設(shè)置進(jìn)行修改。 這些設(shè)置也可以選擇Scrapy項(xiàng)目當(dāng)前處于活動(dòng)狀態(tài)的情況下,如果你有多個(gè)Scrapy項(xiàng)目。

指定的設(shè)置

您必須通知哪些當(dāng)你放棄一個(gè)網(wǎng)站,你正在使用設(shè)置Scrapy。 為此,重點(diǎn)內(nèi)容環(huán)境變量SCRAPY_SETTINGS_MODULE應(yīng)使用其值應(yīng)在Python路徑語(yǔ)法。

填充設(shè)置

下表顯示了一些通過(guò)它可以填充設(shè)置的機(jī)制:

SN 機(jī)制和說(shuō)明

1. Command line options在這里,所傳遞的參數(shù)通過(guò)重寫其他選項(xiàng)最高的優(yōu)先順序。 該-s用于覆蓋一個(gè)或多個(gè)設(shè)置。scrapy crawl myspider -s LOG_FILE=scrapy.log2. Settings per-spider蜘蛛可以有自己的設(shè)置,通過(guò)使用屬性custom_settings覆蓋項(xiàng)目的。class DemoSpider(scrapy.Spider) : name = 'demo' custom_settings = { 'SOME_SETTING': 'some value', }3. PRoject settings module在這里,你可以像填充在settings.py文件添加或修改的設(shè)置您的自定義設(shè)置。4. Default settings per-command每個(gè)Scrapy工具命令定義自己的設(shè)置在default_settings屬性,覆蓋全球的默認(rèn)設(shè)置。 5. Default global settings:這些設(shè)置的scrapy.settings.default_settings模塊中找到。

訪問(wèn)設(shè)置

他們都可以通過(guò)self.settings并初始化后在基地蜘蛛設(shè)置。 下面的例子說(shuō)明了這一點(diǎn):

class DemoSpider(scrapy.Spider) : name = 'demo' start_urls = ['http://example.com'] def parse(self, response) : print("Existing settings: %s" % self.settings.attributes.keys() )

要在初始化之前蜘蛛使用的設(shè)置,您必須覆蓋from_crawler的方法init()你的蜘蛛的方法。 您可以通過(guò)屬性訪問(wèn)設(shè)置scrapy.crawler.Crawler.settings傳遞給from_crawler方法。

下面的例子說(shuō)明了這一點(diǎn):

class MyExtension(object) : def __init__(self, log_is_enabled=False) : if log_is_enabled: print("Enabled log") @classmethod def from_crawler(cls, crawler) : settings = crawler.settings return cls(settings.getbool('LOG_ENABLED') )

理由設(shè)置名稱

設(shè)置名稱作為前綴添加到他們配置組件。 例如,對(duì)于擴(kuò)展的robots.txt,設(shè)置名稱可以ROBOTSTXT_ENABLED,ROBOTSTXT_OBEY,ROBOTSTXT_CACHEDIR等

內(nèi)置的設(shè)置參考

下表給出了Scrapy的內(nèi)置設(shè)置:

SN 設(shè)置和說(shuō)明

1. AWS_access_KEY_ID它是用于訪問(wèn)亞馬遜網(wǎng)絡(luò)服務(wù)。默認(rèn)值:無(wú)2. AWS_SECRET_ACCESS_KEY它是用于訪問(wèn)亞馬遜網(wǎng)絡(luò)服務(wù)。3. BOT_NAME它是一種可以用于構(gòu)建用戶代理機(jī)器人的名稱。默認(rèn)值:“scrapybot”4. CONCURRENT_ITEMS在用來(lái)并行地處理所述物品處理器的現(xiàn)有項(xiàng)目的最大數(shù)目。5. CONCURRENT_REQUESTS其中Scrapy下載執(zhí)行現(xiàn)有的最大請(qǐng)求數(shù)。默認(rèn)值:166. CONCURRENT_REQUESTS_PER_DOMAIN 現(xiàn)有的最大請(qǐng)求數(shù),對(duì)于任何單域同時(shí)進(jìn)行。默認(rèn)值:87. CONCURRENT_REQUESTS_PER_ip現(xiàn)有的請(qǐng)求的最大數(shù)量的同時(shí)執(zhí)行任何單一的IP。默認(rèn)值:08. DEFAULT_ITEM_CLASS它是用來(lái)表示商品一類。默認(rèn)值:“scrapy.item.Item”9. DEFAULT_REQUEST_HEADERS它是用于Scrapy的HTTP請(qǐng)求的默認(rèn)標(biāo)題。默認(rèn)值:{ 'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8', 'Accept-Language': 'en', }10. DEPTH_LIMIT因?yàn)橹┲氲淖畲笊疃茸ト∪魏尉W(wǎng)站。默認(rèn)值:011. DEPTH_PRIORITY它是用于根據(jù)深度來(lái)改變請(qǐng)求優(yōu)先級(jí)的整數(shù)。默認(rèn)值:012. DEPTH_STATS它指出是否收集詳細(xì)的統(tǒng)計(jì)資料與否。默認(rèn)值:True13. DEPTH_STATS_VERBOSE當(dāng)啟用此設(shè)置,請(qǐng)求數(shù)統(tǒng)計(jì)中的每個(gè)詳細(xì)深入的收集。默認(rèn)值:False14. DNSCACHE_ENABLED它是用來(lái)啟用內(nèi)存緩存DNS。默認(rèn)值:True15. DNSCACHE_SIZE它定義了在內(nèi)存中緩存DNS的大小。默認(rèn)值:1000016. DNS_TIMEOUT它是用來(lái)設(shè)置超時(shí)DNS處理的查詢。默認(rèn)值:6017. DOWNLOADER它是用來(lái)抓取過(guò)程中下載。默認(rèn)值:“scrapy.core.downloader.Downloader”18. DOWNLOADER_MIDDLEWARES這是辭典保持下載中間件和他們的訂單。默認(rèn)值: {}19. DOWNLOADER_MIDDLEWARES_BASE這是默認(rèn)啟用的一個(gè)辭典保持下載中間件。默認(rèn)值:{ 'scrapy.downloadermiddlewares.robotstxt.RobotsTxtMiddleware':100,}20. DOWNLOADER_STATS此設(shè)置用于啟用下載統(tǒng)計(jì)。默認(rèn)值:True21. DOWNLOAD_DELAY它定義的總時(shí)間下載它從下載網(wǎng)站的網(wǎng)頁(yè)之前。默認(rèn)值:022. DOWNLOAD_HANDLERS它與下載處理程序的字典。默認(rèn)值: {}23. DOWNLOAD_HANDLERS_BASE它與默認(rèn)情況下啟用下載處理程序的字典。默認(rèn)值:{ '文件': 'scrapy.core.downloader.handlers.file.FileDownloadHandler',}24. DOWNLOAD_TIMEOUT它的總時(shí)間下載到之前等待超時(shí)。默認(rèn)值:18025. DOWNLOAD_MAXSIZE這是響應(yīng)的下載器下載的最大尺寸。默認(rèn)值:1073741824 (1024MB)26. DOWNLOAD_WARNSIZE它定義為響應(yīng)下載警告的大小。默認(rèn)值:33554432 (32MB)27. DUPEFILTER_CLASS這是用于檢測(cè)和是重復(fù)的請(qǐng)求的濾波的類。默認(rèn)值:“scrapy.dupefilters.RFPDupeFilter”28. DUPEFILTER_DEBUG當(dāng)設(shè)置為true此設(shè)置記錄所有重復(fù)的過(guò)濾器。默認(rèn)值:False29. EDITOR它是用來(lái)編輯使用編輯命令蜘蛛。默認(rèn)值:取決于環(huán)境30. EXTENSIONS它是具有在項(xiàng)目中啟用的擴(kuò)展字典。默認(rèn)值: {}31. EXTENSIONS_BASE它是具有內(nèi)置的擴(kuò)展字典。默認(rèn)值:{ 'scrapy.extensions.corestats.CoreStats':0,}32. FEED_TEMPDIR它是用來(lái)設(shè)置,其中履帶臨時(shí)文件可以存儲(chǔ)自定義文件夾的目錄。33. ITEM_PIPELINES它是具有管線的字典。默認(rèn)值: {}34. LOG_ENABLED它定義如果日志被啟用。默認(rèn)值:True35. LOG_ENCODING它定義了將用于記錄的編碼類型。默認(rèn)值: 'UTF-8'36. LOG_FILE它是用于記錄的輸出文件的名稱。默認(rèn)值:無(wú)37. LOG_FORMAT它是利用它的日志信息可以被格式化的字符串。默認(rèn)值: '%(asctime)小號(hào)[%(name) S] %(levelname) S: %(message) s'的38. LOG_DATEFORMAT它是利用它的日期/時(shí)間可以格式化字符串。默認(rèn)值: '%Y-%間 - %D%H:%M:%S'39. LOG_LEVEL它定義最低日志級(jí)別。默認(rèn)值:“DEBUG”40. LOG_STDOUT此設(shè)置如果設(shè)置為true ,所有侑過(guò)程輸出會(huì)出現(xiàn)在日志中。默認(rèn)值:False41. MEMDEBUG_ENABLED它定義如果內(nèi)存調(diào)試啟用。默認(rèn)值:False42. MEMDEBUG_NOTIFY它定義啟用內(nèi)存調(diào)試時(shí),發(fā)送到特定地址的內(nèi)存報(bào)告。默認(rèn)值: []43. MEMUSAGE_ENABLED它定義如果存儲(chǔ)器使用是當(dāng)scrapy過(guò)程超過(guò)存儲(chǔ)器限制被啟用。默認(rèn)值:False44. MEMUSAGE_LIMIT_MB如果定義了存儲(chǔ)器的最大限制(in megabytes)被允許。默認(rèn)值:045. MEMUSAGE_CHECK_INTERVAL_SECONDS它用于通過(guò)設(shè)置間隔的長(zhǎng)度,以檢查本內(nèi)存使用情況。默認(rèn)值:60.046. MEMUSAGE_NOTIFY_MAIL它是用來(lái)當(dāng)內(nèi)存達(dá)到極限與電子郵件列表通知。默認(rèn)值:False47. MEMUSAGE_REPORT它定義如果內(nèi)存使用情況報(bào)告要在關(guān)閉每個(gè)蜘蛛發(fā)送。默認(rèn)值:False48. MEMUSAGE_WARNING_MB它定義被發(fā)送警告之前被允許的總存儲(chǔ)。默認(rèn)值:049. NEWSPIDER_MODULE這是其中使用創(chuàng)造了新的蜘蛛模塊genspider命令。默認(rèn)值: ''50. RANDOMIZE_DOWNLOAD_DELAY它定義的時(shí)候了Scrapy等待下載的同時(shí)從網(wǎng)站上請(qǐng)求一個(gè)隨機(jī)量。默認(rèn)值:True51. REACTOR_THREADPOOL_MAXSIZE它定義為在反應(yīng)器線程池的最大尺寸。默認(rèn)值:1052. REDIRECT_MAX_TIMES它定義了一個(gè)請(qǐng)求多少次可以重定向。默認(rèn)值:2053. REDIRECT_PRIORITY_ADJUST設(shè)置時(shí),該設(shè)置,調(diào)整的請(qǐng)求重定向優(yōu)先級(jí)。默認(rèn)值:+254. RETRY_PRIORITY_ADJUST設(shè)置時(shí),該設(shè)置,調(diào)整請(qǐng)求重試的優(yōu)先權(quán)。默認(rèn)值:-155. ROBOTSTXT_OBEY當(dāng)設(shè)置為Scrapy遵循robots.txt政策true 。默認(rèn)值:False56. SCHEDULER它定義了用于抓取目的調(diào)度。默認(rèn)值:“scrapy.core.scheduler.Scheduler”57. SPIDER_CONTRACTS它是在有項(xiàng)目蜘蛛合同測(cè)試蜘蛛的字典。默認(rèn)值: {}58. SPIDER_CONTRACTS_BASE這是保持其在Scrapy默認(rèn)啟用Scrapy合同的字典。默認(rèn)值: { 'scrapy.contracts.default.UrlContract' : 1, 'scrapy.contracts.default.ReturnsContract': 2, }59. SPIDER_LOADER_CLASS它定義了實(shí)現(xiàn)一個(gè)類SpiderLoader API來(lái)加載蜘蛛。默認(rèn)值:“scrapy.spiderloader.SpiderLoader”60. SPIDER_MIDDLEWARES這是拿著蜘蛛中間件的字典。默認(rèn)值: {}61. SPIDER_MIDDLEWARES_BASE這是在Scrapy默認(rèn)啟用一個(gè)辭典保持蜘蛛中間件。默認(rèn)值:{ 'scrapy.spidermiddlewares.httperror.HttpErrorMiddleware': 50,}62. SPIDER_MODULES它是一種含有蜘蛛其中Scrapy將尋找模塊列表。默認(rèn)值: []63. STATS_CLASS這是實(shí)現(xiàn)一類Stats Collector API來(lái)收集統(tǒng)計(jì)信息。默認(rèn)值:“scrapy.statscollectors.MemoryStatsCollector”64. STATS_DUMP當(dāng)設(shè)置此設(shè)置true ,轉(zhuǎn)儲(chǔ)統(tǒng)計(jì)到日志中。默認(rèn)值:True65. STATSMAILER_RCPTS一旦蜘蛛刮完畢,Scrapy使用此設(shè)置發(fā)送統(tǒng)計(jì)數(shù)據(jù)。默認(rèn)值: []66. TELNETCONSOLE_ENABLED它定義是否啟用telnetconsole。默認(rèn)值:True67. TELNETCONSOLE_PORT它定義了Telnet控制臺(tái)端口。默認(rèn)值:[6023,6073]68. TEMPLATES_DIR它是包含可以在創(chuàng)建新的項(xiàng)目中使用的模板目錄。默認(rèn)值: templates scrapy模塊內(nèi)部目錄69. URLLENGTH_LIMIT它定義了將被允許抓取的網(wǎng)址的長(zhǎng)度為URL的最大極限。默認(rèn)值:208370. USER_AGENT它定義了在抓取網(wǎng)站所使用的用戶代理。默認(rèn)值: “Scrapy / VERSION“
發(fā)表評(píng)論 共有條評(píng)論
用戶名: 密碼:
驗(yàn)證碼: 匿名發(fā)表
主站蜘蛛池模板: 旬阳县| 施甸县| 崇信县| 大同县| 华容县| 石景山区| 高阳县| 桦南县| 宜都市| 阿克苏市| 都兰县| 瓮安县| 渭源县| 禄劝| 正定县| 锦屏县| 南江县| 永城市| 东乡县| 辰溪县| 万全县| 紫金县| 读书| 巴楚县| 阿拉善盟| 南阳市| 东安县| 四川省| 克拉玛依市| 运城市| 邢台县| 乐平市| 晋江市| 沭阳县| 连江县| 阿拉尔市| 舞阳县| 达州市| 耿马| 宁蒗| 永年县|