国产探花免费观看_亚洲丰满少妇自慰呻吟_97日韩有码在线_资源在线日韩欧美_一区二区精品毛片,辰东完美世界有声小说,欢乐颂第一季,yy玄幻小说排行榜完本

首頁 > 編程 > Python > 正文

Python3.x爬蟲下載網頁圖片的實例講解

2020-01-04 15:00:33
字體:
來源:轉載
供稿:網友

一、選取網址進行爬蟲

本次我們選取pixabay圖片網站

url=https://pixabay.com/

Python3.x,爬蟲,下載網頁圖片

Python3.x,爬蟲,下載網頁圖片

二、選擇圖片右鍵選擇查看元素來尋找圖片鏈接的規則

Python3.x,爬蟲,下載網頁圖片

Python3.x,爬蟲,下載網頁圖片

通過查看多個圖片路徑我們發現取src路徑都含有 https://cdn.pixabay.com/photo/ 公共部分且圖片格式都為.jpg 因此正則表達式

re.compile(r'^https://cdn.pixabay.com/photo/.*?jpg$') 

通過以上的分析我們可以開始寫程序了

#-*- coding:utf-8 -*-import reimport requestsimport osfrom bs4 import BeautifulSoupurl = 'https://pixabay.com/'html = requests.get(url).text #獲取網頁內容print(html)# 這里由于有些圖片可能存在網址打不開的情況,加個5秒超時控制。#data-objurl="http://pic38.nipic.com/20140218/17995031_091821599000_2.jpg"獲取這種類型鏈接soup = BeautifulSoup(html,'html.parser',from_encoding='utf-8')#^abc.*?qwe$pic_url = soup.find_all('img',src=re.compile(r'^https://cdn.pixabay.com/photo/.*?jpg$'))#pic_url = pic_node.get_text()#pic_url = re.findall('"https://cdn.pixabay.com/photo/""(.*?)",',html,re.S)print(pic_url)i = 0#判斷image文件夾是否存在,不存在則創建if not os.path.exists('image'): os.makedirs('image')for url in pic_url: img = url['src'] try: pic = requests.get(img,timeout=5) #超時異常判斷 5秒超時 except requests.exceptions.ConnectionError: print('當前圖片無法下載') continue file_name = "image/"+str(i)+".jpg" #拼接圖片名 print(file_name) #將圖片存入本地 fp = open(file_name,'wb') fp.write(pic.content) #寫入圖片 fp.close() i+=1

代碼是不是很簡單呢 如果你想修改地址 取爬取別的網站 請注意分析下載圖片路徑的共性 并設計合理的正則表達式,否則是無法獲取到圖片路徑的

執行過程截圖:

Python3.x,爬蟲,下載網頁圖片

以上這篇Python3.x爬蟲下載網頁圖片的實例講解就是小編分享給大家的全部內容了,希望能給大家一個參考,也希望大家多多支持VEVB武林網。


注:相關教程知識閱讀請移步到python教程頻道。
發表評論 共有條評論
用戶名: 密碼:
驗證碼: 匿名發表
主站蜘蛛池模板: 紫阳县| 潜江市| 临颍县| 西林县| 乐山市| 信阳市| 遵义市| 壶关县| 阿勒泰市| 壤塘县| 穆棱市| 珠海市| 海兴县| 凤山市| 麻栗坡县| 兴安盟| 通河县| 铅山县| 逊克县| 神木县| 陇川县| 汉沽区| 思茅市| 苏尼特右旗| 广西| 德安县| 万州区| 本溪| 怀宁县| 涟源市| 北流市| 峡江县| 余姚市| 莱阳市| 定襄县| 泸溪县| 雅江县| 石狮市| 永寿县| 连山| 正安县|