国产探花免费观看_亚洲丰满少妇自慰呻吟_97日韩有码在线_资源在线日韩欧美_一区二区精品毛片,辰东完美世界有声小说,欢乐颂第一季,yy玄幻小说排行榜完本

首頁 > 編程 > Python > 正文

python學習(6):python爬蟲之requests和BeautifulSoup的使用

2019-11-06 07:29:26
字體:
來源:轉載
供稿:網友

前言:

Requests庫跟urllib庫的作用相似,都是根據http協議操作各種消息和頁面。

都說Requests庫比urllib庫好用,我也沒有體會到好在哪兒。

但是,urllib庫有一點不爽的是:urllib.request.urlretrieve(url, localPath)函數在將某些圖片鏈接保存到本地時,會出現錯誤:httpError:304 Forbidden

為什么會出現這個錯誤?查詢網上的說法,大多認為是Header的問題,不過我試了將完整的Header添加進去仍然不行。

本案例用Requests庫替換urllib庫,并用open().write()方法替換掉urllib.request.urlretrieve(url, localPath)方法。

正文:

一,安裝Requests庫

pip3 install requests安裝后進入python導入模塊測試是否安裝成功

import requests沒有出錯即安裝成功

Requests庫的使用請參閱中文官方文檔:http://cn.python-requests.org/zh_CN/latest/

二,結合了Requests庫和BeautifulSoup庫的圖片爬蟲程序

'''    requests,bs4'''import osimport requestsfrom bs4 import BeautifulSoupdef getHtmlCode(url):  # 該方法傳入url,返回url的html的源碼    headers = {        'User-Agent': 'MMozilla/5.0 (Windows NT 6.1; WOW64; rv:31.0) Gecko/20100101 Firefox/31.0'    }    r= requests.get(url,headers=headers)    r.encoding='UTF-8'    page = r.text    return pagedef getImg(page,localPath):  # 該方法傳入html的源碼,經過截取其中的img標簽,將圖片保存到本機    if not os.path.exists(localPath): # 新建文件夾        os.mkdir(localPath)    soup = BeautifulSoup(page,'html.parser') # 按照html格式解析頁面    imgList = soup.find_all('img')  # 返回包含所有img標簽的列表    x = 0    for imgUrl in imgList:  # 列表循環        


發表評論 共有條評論
用戶名: 密碼:
驗證碼: 匿名發表
主站蜘蛛池模板: 得荣县| 青浦区| 红河县| 灵武市| 锡林浩特市| 叶城县| 堆龙德庆县| 济南市| 安西县| 南陵县| 兖州市| 双流县| 兴隆县| 新建县| 泊头市| 蕉岭县| 田林县| 潍坊市| 南昌县| 镇安县| 滨州市| 星座| 广州市| 辽宁省| 海南省| 屏边| 铜陵市| 利津县| 永州市| 宜黄县| 上高县| 如东县| 抚顺县| 大方县| 什邡市| 甘孜| 农安县| 理塘县| 同心县| 克拉玛依市| 陆丰市|