使用Python編寫簡單網絡爬蟲抓取視頻下載資源

2019-11-25 18:07:10

字體：大中小

來源：轉載

供稿：網友

我第一次接觸爬蟲這東西是在今年的5月份，當時寫了一個博客搜索引擎，所用到的爬蟲也挺智能的，起碼比電影來了這個站用到的爬蟲水平高多了！

回到用Python寫爬蟲的話題。

Python一直是我主要使用的腳本語言，沒有之一。Python的語言簡潔靈活，標準庫功能強大，平常可以用作計算器，文本編碼轉換，圖片處理，批量下載，批量處理文本等。總之我很喜歡，也越用越上手，這么好用的一個工具，一般人我不告訴他。。。

因為其強大的字符串處理能力，以及urllib2，cookielib，re，threading這些模塊的存在，用Python來寫爬蟲就簡直易于反掌了。簡單到什么程度呢。我當時跟某同學說，我寫電影來了用到的幾個爬蟲以及數據整理的一堆零零散散的腳本代碼行數總共不超過1000行，寫電影來了這個網站也只有150來行代碼。因為爬蟲的代碼在另外一臺64位的黑蘋果上，所以就不列出來，只列一下VPS上網站的代碼，tornadoweb框架寫的

[xiaoxia@307232 movie_site]$ wc -l *.py template/*
  156 msite.py
   92 template/base.html
   79 template/category.html
   94 template/id.html
   47 template/index.html
   77 template/search.html

下面直接show一下爬蟲的編寫流程。以下內容僅供交流學習使用，沒有別的意思。

以某灣的最新視頻下載資源為例，其網址是

http://某piratebay.se/browse/200

因為該網頁里有大量廣告，只貼一下正文部分內容：

對于一個python爬蟲，下載這個頁面的源代碼，一行代碼足以。這里用到urllib2庫。

>>> import urllib2
>>> html = urllib2.urlopen('http://某piratebay.se/browse/200').read()
>>> print 'size is', len(html)
size is 52977

當然，也可以用os模塊里的system函數調用wget命令來下載網頁內容，對于掌握了wget或者curl工具的同學是很方便的。

使用Firebug觀察網頁結構，可以知道正文部分html是一個table。每一個資源就是一個tr標簽。

而對于每一個資源，需要提取的信息有：

1、視頻分類
2、資源名稱
3、資源鏈接
4、資源大小
5、上傳時間

就這么多就夠了，如果有需要，還可以增加。

首先提取一段tr標簽里的代碼來觀察一下。

<tr>
  <td class="vertTh">
   <center>
    <a href="/browse/200" title="此目錄中更多">視頻</a><br />
    (<a href="/browse/205" title="此目錄中更多">電視</a>)
   </center>
  </td>
  <td>
<div class="detName">   <a href="/torrent/7782194/The_Walking_Dead_Season_3_Episodes_1-3_HDTV-x264" class="detLink" title="細節 The Walking Dead Season 3 Episodes 1-3 HDTV-x264">The Walking Dead Season 3 Episodes 1-3 HDTV-x264</a>
</div>
<a href="magnet:?xt=urn:btih:4f63d58e51c1a4a997c6f099b2b529bdbba72741&dn=The+Walking+Dead+Season+3+Episodes+1-3+HDTV-x264&tr=udp%3A%2F%2Ftracker.openbittorrent.com%3A80&tr=udp%3A%2F%2Ftracker.publicbt.com%3A80&tr=udp%3A%2F%2Ftracker.istole.it%3A6969&tr=udp%3A%2F%2Ftracker.ccc.de%3A80" title="Download this torrent using magnet"><img src="http://static.某piratebay.se/img/icon-magnet.gif" alt="Magnet link" /></a>   <a href="http://torrents.某piratebay.se/7782194/The_Walking_Dead_Season_3_Episodes_1-3_HDTV-x264.7782194.TPB.torrent" title="下載種子"><img src="http://static.某piratebay.se/img/dl.gif" class="dl" alt="下載" /></a><img src="http://static.某piratebay.se/img/11x11p.png" /><img src="http://static.某piratebay.se/img/11x11p.png" />
   <font class="detDesc">已上傳 <b>3 分鐘前</b>, 大小 2 GiB, 上傳者 <a class="detDesc" href="/user/paridha/" title="瀏覽 paridha">paridha</a></font>
  </td>
  <td align="right">0</td>
  <td align="right">0</td>
 </tr>

下面用正則表達式來提取html代碼中的內容。對正則表達式不了解的同學，可以去 http://docs.python.org/2/library/re.html 了解一下。

為何要用正則表達式而不用其他一些解析HTML或者DOM樹的工具是有原因的。我之前試過用BeautifulSoup3來提取內容，后來發覺速度實在是慢死了啊，一秒鐘能夠處理100個內容，已經是我電腦的極限了。。。而換了正則表達式，編譯后處理內容，速度上直接把它秒殺了！

提取這么多內容，我的正則表達式要如何寫呢？

根據我以往的經驗，“.*?”或者“.+?”這個東西是很好使的。不過也要注意一些小問題，實際用到的時候就會知道

對于上面的tr標簽代碼，我首先需要讓我的表達式匹配到的符號是

<tr>

表示內容的開始，當然也可以是別的，只要不要錯過需要的內容即可。然后我要匹配的內容是下面這個，獲取視頻分類。

(<a href="/browse/205" title="此目錄中更多">電視</a>)

接著我要匹配資源鏈接了，

再到其他資源信息，

font class="detDesc">已上傳 <b>3 分鐘前</b>, 大小 2 GiB, 上傳者

最后匹配

</tr>

大功告成！

當然，最后的匹配可以不需要在正則表達式里表示出來，只要開始位置定位正確了，后面獲取信息的位置也就正確了。

對正則表達式比較了解的朋友，可能知道怎么寫了。我Show一下我寫的表達式處理過程，

就這么簡單，結果出來了，自我感覺挺歡喜的。

當然，這樣設計的爬蟲是有針對性的，定向爬取某一個站點的內容。也沒有任何一個爬蟲不會對收集到的鏈接進行篩選。通常可以使用BFS（寬度優先搜索算法）來爬取一個網站的所有頁面鏈接。

完整的Python爬蟲代碼，爬取某灣最新的10頁視頻資源：

# coding: utf8
import urllib2
import re
import pymongo
db = pymongo.Connection().test
url = 'http://某piratebay.se/browse/200/%d/3'
find_re = re.compile(r'<tr>.+?/(.+?">(.+?)</a>.+?class="detLink".+?">(.+?)</a>.+?<a href="(magnet:.+?)" .+?已上傳 <b>(.+?)</b>, 大小 (.+?),', re.DOTALL)
# 定向爬去10頁最新的視頻資源
for i in range(0, 10):
    u = url % (i)
    # 下載數據
    html = urllib2.urlopen(u).read()
    # 找到資源信息
    for x in find_re.findall(html):
        values = dict(
            category = x[0],
            name = x[1],
            magnet = x[2],
            time = x[3],
            size = x[4]
        )
        # 保存到數據庫
        db.priate.save(values)
print 'Done!'