一直以來我們在使用Python的urllib2、httplib等通信框架來抓取網頁,但是涉及到javaScript渲染的頁面卻不能抓取,所以采用Web自動化測試工具Selenium,無界面瀏覽器PhantomJS來抓取Javascript渲染的頁面,帶我們熟悉使用后,爬蟲技能將大大提升。
Selenium是一個用于Web應用程序測試的工具。Selenium測試直接運行在瀏覽器中,就像真正的用戶在操作一樣。Selenium支持的瀏覽器包括IE、Mozilla Firefox、Chrome等。 Selenium支持多種語言開發,比如 Java,Python, C,Ruby等。 #Phantom JS是一個服務器端的 JavaScript API 的 WebKit。其支持各種Web標準: DOM 處理, CSS 選擇器, JSON, Canvas, 和 SVG。 # 首先安裝 Python 的 Selenium 庫,再安裝好 PhantomJS,就可以實現 Python+Selenium+PhantomJS 的無縫對接了嘛!PhantomJS 用來渲染解析JS,Selenium 用來驅動PhantomJS以及與 Python 的對接,Python 進行網頁后期的處理,完美的三劍客!使用方法很簡單,代碼如下,如果成功打印出網頁的源碼,那么說明已經可以成功使用了。
from selenium import webdriver#driver = webdriver.PhantomJS()driver.get('http://wenshu.court.gov.cn/list/list/')data = driver.page_sourcePRint datadriver.quit()| 
 
 | 
新聞熱點
疑難解答