国产探花免费观看_亚洲丰满少妇自慰呻吟_97日韩有码在线_资源在线日韩欧美_一区二区精品毛片,辰东完美世界有声小说,欢乐颂第一季,yy玄幻小说排行榜完本

<p id="1dypf"><ins id="1dypf"></ins></p>

首頁 > 學院 > 開發設計 > 正文

python抓取網頁過程

2019-11-14 17:16:15

字體：大中小

來源：轉載

供稿：網友

準備過程

1.抓取網頁的過程

準備好http請求（http request）->提交對應的請求->獲得返回的響應（http response）->獲得網頁源碼

2.GET還是POST

3.Headers（可選）

在某些情況下，直接抓取是被禁止的，此時需要提供一個Headers來告訴對方我不是機器人

例如：

1 def getHtml(url):2     header={'User-Agent' : 'Mozilla/5.0 (Windows NT 6.1; WOW64; rv:14.0) Gecko/20100101 Firefox/14.0.1','Referer' : '******'}3     request=urllib2.Request(url,None,header)4     response=urllib2.urlopen(request)5     text=response.read()6     return text

4.Post Data（可選）

某些情況下是需要登錄某網站的，此時需要提交帳號密碼之類的，則需要使用Post Data

在IE中稱為request body，Chrome中成為Post Data

5.Cookie（可選）

一般來說，模擬登陸的時候往往會涉及到Cookie

6.其他（代理，最大超時時間timeout）

內容分析

1.對于html源碼，調用BeautifulSoup庫

2.正則表達式

本文參考了http://www.crifan.com/summary_about_flow_PRocess_of_fetch_webpage_simulate_login_website_and_some_notice/

可以說是一個簡化版，想看的可以去看原文

PS：博主提供了很多計算機方面的資料，讀后幫助很大，有興趣的可以過去看看

上一篇：Python實現__metaclass__實現方法運行時間統計

下一篇：cve-2015-1635poc

學習交流

索泰發布一款GTX 1070 Mini迷你版本:小機

索泰發布一款GTX 1070 Mini迷你版本:小機箱大愛...

熱門圖片

猜你喜歡的新聞

猜你喜歡的關注

新聞熱點

榮耀總裁趙明烏鎮演講：榮耀首款5G手機V30下月發布

2019-10-23 09:17:05

搜狐張朝陽：回歸媒體是搜狐重新崛起的關鍵

2019-10-21 09:20:02

華為輪值董事長郭平：虛擬技術創造現實價值

2019-10-21 09:00:12

滴滴英文服務上線兩周年用戶已超200萬

2019-09-26 08:57:12

華為推出全球至快AI訓練集群Atlas900

2019-09-25 08:46:36

馬斯克：特斯拉正組建中國技術團隊

2019-09-25 08:15:43

疑難解答

圖片精選

網友關注

主站蜘蛛池模板：永吉县| 射洪县| 红原县| 浦江县| 青岛市| 兴和县| 大新县| 乌苏市| 沁源县| 宁化县| 盘山县| 临清市| 开远市| 康保县| 科技| 红桥区| 武胜县| 昭通市| 当雄县| 南和县| 洞口县| 南投县| 丰宁| 平顺县| 洞头县| 合江县| 灵璧县| 静乐县| 大兴区| 长兴县| 乡城县| 岳池县| 常熟市| 广丰县| 方城县| 二连浩特市| 青州市| 阳朔县| 张北县| 孝义市| 门源|

<small id="yxgl3"><dl id="yxgl3"></dl></small>

<td id="yxgl3"></td>

<form id="yxgl3"><optgroup id="yxgl3"></optgroup></form>