在scrapy中使用phantomJS實(shí)現(xiàn)異步爬取的方法

2020-01-04 13:47:32

字體：大中小

供稿：網(wǎng)友

使用selenium能夠非常方便的獲取網(wǎng)頁(yè)的ajax內(nèi)容，并且能夠模擬用戶點(diǎn)擊和輸入文本等諸多操作，這在使用scrapy爬取網(wǎng)頁(yè)的過(guò)程中非常有用。

網(wǎng)上將selenium集成到scrapy的文章很多，但是很少有能夠?qū)崿F(xiàn)異步爬取的，下面這段代碼就重寫了scrapy的downloader，同時(shí)實(shí)現(xiàn)了selenium的集成以及異步。

使用時(shí)需要PhantomJSDownloadHandler添加到配置文件的DOWNLOADER中。

# encoding: utf-8from __future__ import unicode_literals from scrapy import signalsfrom scrapy.signalmanager import SignalManagerfrom scrapy.responsetypes import responsetypesfrom scrapy.xlib.pydispatch import dispatcherfrom selenium import webdriverfrom six.moves import queuefrom twisted.internet import defer, threadsfrom twisted.python.failure import Failure  class PhantomJSDownloadHandler(object):  def __init__(self, settings):  self.options = settings.get('PHANTOMJS_OPTIONS', {})   max_run = settings.get('PHANTOMJS_MAXRUN', 10)  self.sem = defer.DeferredSemaphore(max_run)  self.queue = queue.LifoQueue(max_run)   SignalManager(dispatcher.Any).connect(self._close, signal=signals.spider_closed)  def download_request(self, request, spider):  """use semaphore to guard a phantomjs pool"""  return self.sem.run(self._wait_request, request, spider)  def _wait_request(self, request, spider):  try:   driver = self.queue.get_nowait()  except queue.Empty:   driver = webdriver.PhantomJS(**self.options)   driver.get(request.url)  # ghostdriver won't response when switch window until page is loaded  dfd = threads.deferToThread(lambda: driver.switch_to.window(driver.current_window_handle))  dfd.addCallback(self._response, driver, spider)  return dfd  def _response(self, _, driver, spider):  body = driver.execute_script("return document.documentElement.innerHTML")  if body.startswith("<head></head>"): # cannot access response header in Selenium   body = driver.execute_script("return document.documentElement.textContent")  url = driver.current_url  respcls = responsetypes.from_args(url=url, body=body[:100].encode('utf8'))  resp = respcls(url=url, body=body, encoding="utf-8")   response_failed = getattr(spider, "response_failed", None)  if response_failed and callable(response_failed) and response_failed(resp, driver):   driver.close()   return defer.fail(Failure())  else:   self.queue.put(driver)   return defer.succeed(resp)  def _close(self):  while not self.queue.empty():   driver = self.queue.get_nowait()   driver.close()

以上這篇在scrapy中使用phantomJS實(shí)現(xiàn)異步爬取的方法就是小編分享給大家的全部?jī)?nèi)容了，希望能給大家一個(gè)參考，也希望大家多多支持VEVB武林網(wǎng)。

注：相關(guān)教程知識(shí)閱讀請(qǐng)移步到python教程頻道。

上一篇：Python使用Selenium爬取淘寶異步加載的數(shù)據(jù)方法

下一篇：Python 通過(guò)調(diào)用接口獲取公交信息的實(shí)例