国产探花免费观看_亚洲丰满少妇自慰呻吟_97日韩有码在线_资源在线日韩欧美_一区二区精品毛片,辰东完美世界有声小说,欢乐颂第一季,yy玄幻小说排行榜完本

首頁 > 編程 > Python > 正文

selenium+python設置爬蟲代理IP的方法

2020-01-04 13:58:26
字體:
來源:轉載
供稿:網友

1. 背景

在使用python/328914.html">selenium瀏覽器渲染技術,爬取網站信息時,一般來說,速度是很慢的。而且一般需要用到這種技術爬取的網站,反爬技術都比較厲害,對IP的訪問頻率應該有相當的限制。所以,如果想提升selenium抓取數據的速度,可以從兩個方面出發:

第一,提高抓取頻率,出現驗證信息時進行破解,一般是驗證碼或者用戶登錄。

第二,使用多線程 + 代理IP, 這種方式,需要電腦有足夠的內存和充足穩定的代理IP 。

2. 為chrome設置代理IP

from selenium import webdriverchromeOptions = webdriver.ChromeOptions()# 設置代理chromeOptions.add_argument("--proxy-server=http://202.20.16.82:10152")# 一定要注意,=兩邊不能有空格,不能是這樣--proxy-server = http://202.20.16.82:10152browser = webdriver.Chrome(chrome_options = chromeOptions)# 查看本機ip,查看代理是否起作用browser.get("http://httpbin.org/ip")print(browser.page_source)# 退出,清除瀏覽器緩存browser.quit()

注意事項: 

第一,代理IP最好是穩定的固定IP,不要選動態IP。我們常用的爬蟲IP是高匿名動態IP,是通過撥號動態產生的,時效性很短,一般在1~3分鐘。對于scrapy這種并發度很高,又不需要登錄的爬蟲來說,非常合適,但是在瀏覽器渲染類爬蟲中并不適用。

第二,代理IP的速度。因為selenium爬蟲采用的是瀏覽器渲染技術,本身速度就很慢。如果選擇的代理IP速度較慢,就會大大增加爬取的時間。

第三,電腦內存要夠大。因為chrome占內存較大,在并發度很高的情況下,容易造成瀏覽器崩潰,也就是程序崩潰。

第四,在程序結束時,調用 browser.quit( ) 清除瀏覽器緩存。

3. 需要用戶名密碼驗證的代理

參考文章:

GitHub:https://github.com/RobinDev/Selenium-Chrome-HTTP-Private-Proxy

以上就是本文的全部內容,希望對大家的學習有所幫助,也希望大家多多支持VEVB武林網。


注:相關教程知識閱讀請移步到python教程頻道。
發表評論 共有條評論
用戶名: 密碼:
驗證碼: 匿名發表
主站蜘蛛池模板: 通辽市| 扬中市| 崇文区| 竹山县| 汪清县| 手游| 时尚| 马尔康县| 彝良县| 株洲市| 溧阳市| 民县| 专栏| 赣榆县| 乐亭县| 西贡区| 万盛区| 页游| 苍山县| 揭西县| 和政县| 唐海县| 紫云| 道真| 云安县| 敦化市| 西丰县| 崇礼县| 田林县| 扎赉特旗| 休宁县| 靖江市| 九龙县| 平阴县| 财经| 岑溪市| 什邡市| 昔阳县| 苏尼特右旗| 黄陵县| 修文县|