利用python爬取軟考試題之ip自動代理

2019-11-25 16:17:00

字體：大中小

來源：轉載

供稿：網友

前言

最近有個軟件專業等級考試，以下簡稱軟考，為了更好的復習備考，我打算抓取www.rkpass.cn網上的軟考試題。

首先講述一下我爬取軟考試題的故（keng）事(shi)。現在我已經能自動抓取某一個模塊的所有題目了，如下圖：

目前可以將信息系統監理師的30條試題記錄全部抓取下來，結果如下圖所示：

抓取下來的內容圖片：

雖然可以將部分信息抓取下來，但是代碼的質量并不高，以抓取信息系統監理師為例，因為目標明確，各項參數清晰，為了追求能在短時間內抓取到試卷信息，所以并沒有做異常處理，昨天晚上填了很久的坑。

回到主題，今天寫這篇博客，是因為又遇到新坑了。從文中標題我們可以猜出個大概，肯定是請求次數過多，所以ip被網站的反爬蟲機制給封了。

活人不能讓尿憋死，革命先輩的事跡告訴我們，作為社會主義的接班人，我們不能屈服于困難，逢山開路，遇水搭橋，為了解決ip問題，ip代理這個思路就出來了。

在網絡爬蟲抓取信息的過程中，如果抓取頻率高過了網站的設置閥值，將會被禁止訪問。通常，網站的反爬蟲機制都是依據IP來標識爬蟲的。

于是在爬蟲的開發者通常需要采取兩種手段來解決這個問題：

1、放慢抓取速度，減小對于目標網站造成的壓力。但是這樣會減少單位時間類的抓取量。

2、第二種方法是通過設置代理IP等手段，突破反爬蟲機制繼續高頻率抓取。但是這樣需要多個穩定的代理IP。

話不多書，直接上代碼：

# IP地址取自國內

感谢您访问我们的网站，您可能还对以下资源感兴趣：
国产探花免费观看_亚洲丰满少妇自慰呻吟_97日韩有码在线_资源在线日韩欧美_一区二区精品毛片









主站蜘蛛池模板：
青田县|
安塞县|
漳州市|
康平县|
玛曲县|
余干县|
松原市|
永胜县|
瓮安县|
郸城县|
彭州市|
金沙县|
行唐县|
确山县|
通榆县|
永川市|
襄樊市|
兴文县|
德州市|
阳泉市|
文昌市|
原阳县|
尚志市|
黔西县|
昔阳县|
都昌县|
灯塔市|
临潭县|
永安市|
涪陵区|
吉首市|
海兴县|
陇西县|
佳木斯市|
正宁县|
互助|
三河市|
康定县|
定陶县|
榆社县|
曲沃县|

国产探花免费观看_亚洲丰满少妇自慰呻吟_97日韩有码在线_资源在线日韩欧美_一区二区精品毛片,辰东完美世界有声小说,欢乐颂第一季,yy玄幻小说排行榜完本

利用python爬取軟考試題之ip自動代理