国产探花免费观看_亚洲丰满少妇自慰呻吟_97日韩有码在线_资源在线日韩欧美_一区二区精品毛片,辰东完美世界有声小说,欢乐颂第一季,yy玄幻小说排行榜完本

首頁 > 編程 > Python > 正文

利用python爬取軟考試題之ip自動代理

2019-11-25 16:17:00
字體:
來源:轉載
供稿:網友

前言

最近有個軟件專業等級考試,以下簡稱軟考,為了更好的復習備考,我打算抓取www.rkpass.cn網上的軟考試題。

首先講述一下我爬取軟考試題的故(keng)事(shi)。現在我已經能自動抓取某一個模塊的所有題目了,如下圖:

目前可以將信息系統監理師的30條試題記錄全部抓取下來,結果如下圖所示:

抓取下來的內容圖片:

雖然可以將部分信息抓取下來,但是代碼的質量并不高,以抓取信息系統監理師為例,因為目標明確,各項參數清晰,為了追求能在短時間內抓取到試卷信息,所以并沒有做異常處理,昨天晚上填了很久的坑。

回到主題,今天寫這篇博客,是因為又遇到新坑了。從文中標題我們可以猜出個大概,肯定是請求次數過多,所以ip被網站的反爬蟲機制給封了。

活人不能讓尿憋死,革命先輩的事跡告訴我們,作為社會主義的接班人,我們不能屈服于困難,逢山開路,遇水搭橋,為了解決ip問題,ip代理這個思路就出來了。

在網絡爬蟲抓取信息的過程中,如果抓取頻率高過了網站的設置閥值,將會被禁止訪問。通常,網站的反爬蟲機制都是依據IP來標識爬蟲的。

于是在爬蟲的開發者通常需要采取兩種手段來解決這個問題:

1、放慢抓取速度,減小對于目標網站造成的壓力。但是這樣會減少單位時間類的抓取量。

2、第二種方法是通過設置代理IP等手段,突破反爬蟲機制繼續高頻率抓取。但是這樣需要多個穩定的代理IP。

話不多書,直接上代碼:

# IP地址取自國內

主站蜘蛛池模板:
青田县|
安塞县|
漳州市|
康平县|
玛曲县|
余干县|
松原市|
永胜县|
瓮安县|
郸城县|
彭州市|
金沙县|
行唐县|
确山县|
通榆县|
永川市|
襄樊市|
兴文县|
德州市|
阳泉市|
文昌市|
原阳县|
尚志市|
黔西县|
昔阳县|
都昌县|
灯塔市|
临潭县|
永安市|
涪陵区|
吉首市|
海兴县|
陇西县|
佳木斯市|
正宁县|
互助|
三河市|
康定县|
定陶县|
榆社县|
曲沃县|