Scrapy的簡單使用教程

2020-01-04 16:38:55

字體：大中小

來源：轉載

供稿：網友

在這篇入門教程中，我們假定你已經安裝了python。如果你還沒有安裝，那么請參考安裝指南。

首先第一步：進入開發環境，workon article_spider

進入這個環境：

Scrapy入門,爬蟲框架Scrapy,Scrapy快速入門

安裝Scrapy，在安裝的過程中出現了一些錯誤：通常這些錯誤都是部分文件沒有安裝導致的，因為大學時經常出現，所以對解決這種問題，很實在，直接到http://www.lfd.uci.edu/~gohlke/pythonlibs/這個網站下載對應的文件，下載后用pip安裝，具體過程不在贅述。

Scrapy入門,爬蟲框架Scrapy,Scrapy快速入門

然后進入工程目錄，并打開我們的新創建的虛擬環境：

Scrapy入門,爬蟲框架Scrapy,Scrapy快速入門

新建scrapy工程：ArticleSpider

Scrapy入門,爬蟲框架Scrapy,Scrapy快速入門

創建好工程框架：在pycharm中導入

Scrapy入門,爬蟲框架Scrapy,Scrapy快速入門

scrapy.cfg: 項目的配置文件。
ArticleSpeder/: 該項目的python模塊。之后您將在此加入代碼。
ArticleSpeder/items.py: 項目中的item文件。
ArticleSpeder/pipelines.py: 項目中的pipelines文件。
ArticleSpeder/settings.py: 項目的設置文件。
ArticleSpeder/spiders/: 放置spider代碼的目錄。

回到dos窗口用basic創建模板

Scrapy入門,爬蟲框架Scrapy,Scrapy快速入門

上面pycharm的截圖中已經創建好了：

為了今后更好的開發，創建一個用于debug的類main.py

from scrapy.cmdline import executeimport sysimport osprint(os.path.dirname(os.path.abspath(__file__)))sys.path.append(os.path.dirname(os.path.abspath(__file__)))execute(["scrapy","crawl","jobbole"])

這是代碼內容

import sys 為了設置工程目錄，調用命令才會生效

里面的路徑最好不要寫死：可以通過os獲取路徑，更加靈活

execute用來執行目標程序的

jobbole.py的內容

class JobboleSpider(scrapy.Spider):name = 'jobbole'allowed_domains = ['blog.jobbole.com']start_urls = ['http://blog.jobbole.com/110287']def parse(self, response):re_selector = response.xpath("/html/body/div[1]/div[3]/div[1]/div[1]/h1")re2_selector = response.xpath('//*[@id="post-110287"]/div[1]/h1')title = response.xpath('//div[@class="entry-header"]/h1/text()')create_date = response.xpath("")#//*[@id="112706votetotal"]dian_zan = int(response.xpath("//span[contains(@class,'vote-post-up ')]/h10/text()").extract()[0])pass

通過xpath技術獲取對應文章的一些字段信息，包括標題，時間，評論數，點贊數等，因為比較簡單所以不在贅述

寫到這兒，大家也知道每次在pycharm里面debug和麻煩，因為scrapy比較大，所以這時候我們可以使用Scrapy shell來調試

Scrapy入門,爬蟲框架Scrapy,Scrapy快速入門