目前,前端技術比較火熱。各種前端技術、框架層出不窮。大部分站點的數據都是異步動態加載,相比獲取靜態內容,要抓取動態內容稍微麻煩點
常用的兩種抓取動態網頁數據的方法: 1.借助Firebug等瀏覽工具,分析請求數據,獲得數據接口地址。然后直接動態改變接口參數,獲取json格式的數據。 2.使用瀏覽器渲染引擎觸發javascript事件,借助工具WebKit,Selenium
借助WebKit,我們可以自定義瀏覽器渲染引擎,這樣就能完全控制想要執行的行為,如果不需要這么靈活,那可借助Selenium,它提供了使瀏覽器自動化的API接口,本文簡單介紹Selenium的使用
環境 Mac python2.7 selenium3.0.2 Firefox51.0.1
瀏覽器自動搜索北京趕集網 ‘亦莊’附近的租房信息
現在直接調用selenium使用的話,會爆錯,且不能調動瀏覽器;stackoverflow.com有網友說用2.53.2(具體版本記不清了),這個版本能調起瀏覽器,但仍會爆錯,接著瀏覽器自動關閉。所以,還是直接用版本3吧。具體解決方法下面會講到
下載geckodriver 我下載的是geckodriver-v0.13.0-macos.tar.gz,將解壓后的文件放在你指定的目錄下,我放在了桌面上,如下圖:  下載地址 https://github.com/mozilla/geckodriver/releases 參考https://www.zhihu.com/question/49568096
 下載地址 https://github.com/mozilla/geckodriver/releases 參考https://www.zhihu.com/question/49568096
以北京趕集網為例:http://bj.ganji.com/fang1/ 分析此頁面: 
| 
 
 | 
新聞熱點
疑難解答