Python爬蟲文件下載圖文教程

2020-01-04 13:44:12

字體：大中小

來源：轉載

供稿：網友

而今天我們要說的內容是：如果在網頁中存在文件資源，如：圖片，電影，文檔等。怎樣通過Python爬蟲把這些資源下載下來。

1、怎樣在網上找資源：

就是百度圖片為例，當你如下圖在百度圖片里搜索一個主題時，會為你跳出一大堆相關的圖片。

還有如果你想學英語，找到一個網站有很多mp3的聽力資源，這些可能都是你想獲取的內容。

現在是一個互聯網的時代，只要你去找，基本上能找到你想要的任何資源。

Python,爬蟲,文件下載

2、怎樣識別網頁中的資源：

以上面搜索到的百度圖片為例。找到了這么多的內容，當然你可以通過手動一張張的去保存，但這樣做既費力又費事。你當然更希望通過程序自動去下載所找到的資源。要想代碼識別這些資源，就要告訴代碼這些資源有哪些特征，怎樣在網頁中找到它們。

打開瀏覽器的調試功能（不同瀏覽器可能有差別，不知道的百度一下吧）。找出網頁中你想要下載資源的路徑，如下圖所示。如果有許多類似資源需要下載，則要找到識別這些資源地址的規律，然后告訴代碼。

Python,爬蟲,文件下載

3、資源下載方法一：

代碼很簡單，直接上代碼：

from urllib.request import urlretrieveurlretrieve("圖片URL", "./image.jpg")

直接通過urlretrieve函數就把URL對應的圖片給下載到當前文件夾（./）中了，并把圖片命名為image.jpg。

4、資源下載方法二：

還是直接看代碼：

import requestsresource = requests.get("圖片URL")with open("./image.jpg", mode="wb") as fh:  fh.write(resource.content)

此下載方法要安裝python的requests庫。從功能上來說與下載方法一是一樣的。python庫的安裝方法用pip就好。很簡單，這里都不啰嗦了。

5、資源下載方法三：

看代碼：

import requestsresource = requests.get("圖片URL", stream=True)with open("./image.jpg", mode="wb") as fh:  for chunk in resource.iter_content(chunk_size=100):    fh.write(chunk)

此方法與下載方法二的不同之處在于在get方法調用時使用了參數【stream=True】。而在寫入的文件的時候是分塊寫入的。

什么意思呢：

前兩種方法是把一個文件全部下載到內存后，再一起寫入到硬盤文件中。

方法三是下載一定的量（這里指的是100字節）后，就寫入到硬盤文件中，直到全部寫完。

第三種方法的好處是，如果在下載大容量文件時，不會造成內存的過度使用。

6、資源下載說明一：

上述的代碼都是通過下載圖片資源為例子的，但所有其它資源，如文檔，電影等的下載方式是一樣的。關鍵是要正確的識別出網頁中資源所對應的URL地址才能夠正確的下載（因為有些資源是用的相對路徑或加密后的路徑）。

7、資源下載說明二：

上面例子中的代碼都是下載單一資源的。如果要在同一網頁中下載多個資源的思路如下：

1. 找出要下載資源的URL，并形成一個資源集合；

2. 把下載函數中的資源URL與保存路徑參數化；

3. 遍歷資源集合，依靠循環調用下載函數來達到多個資源下載的目的。

總結：以上就是本次介紹關于Python爬蟲下載文件的所有知識點內容，感謝大家的閱讀。

注：相關教程知識閱讀請移步到python教程頻道。

上一篇：python爬蟲獲取新浪新聞教學

下一篇：python爬蟲獲取百度首頁內容教學

學習交流

解決內存不足妙方

解決內存不足妙方...

熱門圖片

猜你喜歡的新聞

猜你喜歡的關注

新聞熱點

雷軍2020新年全員信：“5G+AIoT”五年投500億

2020-01-03 21:43:53

春運售票超3億張！售票總量再創歷史新高

2020-01-03 20:41:46

Windows10市場份額全球第一微軟是否再無敵手？

2020-01-03 20:31:47

比爾蓋茨一次錯誤，付出2.8萬億的代價

2020-01-02 08:44:34

長江迎來最長禁漁期：十年禁漁，方才有魚

2020-01-02 08:28:02

快手封殺淘寶？回應：系統升級，淘寶商品暫無法審核

2020-01-01 22:50:39

疑難解答

圖片精選

網友關注

国产探花免费观看_亚洲丰满少妇自慰呻吟_97日韩有码在线_资源在线日韩欧美_一区二区精品毛片,辰东完美世界有声小说,欢乐颂第一季,yy玄幻小说排行榜完本

Python爬蟲文件下載圖文教程