国产探花免费观看_亚洲丰满少妇自慰呻吟_97日韩有码在线_资源在线日韩欧美_一区二区精品毛片,辰东完美世界有声小说,欢乐颂第一季,yy玄幻小说排行榜完本

首頁(yè) > 編程 > Python > 正文

使用Python編寫簡(jiǎn)單網(wǎng)絡(luò)爬蟲抓取視頻下載資源

2020-02-23 06:07:39
字體:
供稿:網(wǎng)友

我第一次接觸爬蟲這東西是在今年的5月份,當(dāng)時(shí)寫了一個(gè)博客搜索引擎,所用到的爬蟲也挺智能的,起碼比電影來了這個(gè)站用到的爬蟲水平高多了!

回到用Python寫爬蟲的話題。

Python一直是我主要使用的腳本語(yǔ)言,沒有之一。Python的語(yǔ)言簡(jiǎn)潔靈活,標(biāo)準(zhǔn)庫(kù)功能強(qiáng)大,平常可以用作計(jì)算器,文本編碼轉(zhuǎn)換,圖片處理,批量下載,批量處理文本等。總之我很喜歡,也越用越上手,這么好用的一個(gè)工具,一般人我不告訴他。。。

因?yàn)槠鋸?qiáng)大的字符串處理能力,以及urllib2,cookielib,re,threading這些模塊的存在,用Python來寫爬蟲就簡(jiǎn)直易于反掌了。簡(jiǎn)單到什么程度呢。我當(dāng)時(shí)跟某同學(xué)說,我寫電影來了用到的幾個(gè)爬蟲以及數(shù)據(jù)整理的一堆零零散散的腳本代碼行數(shù)總共不超過1000行,寫電影來了這個(gè)網(wǎng)站也只有150來行代碼。因?yàn)榕老x的代碼在另外一臺(tái)64位的黑蘋果上,所以就不列出來,只列一下VPS上網(wǎng)站的代碼,tornadoweb框架寫的 :)

[xiaoxia@307232 movie_site]$ wc -l *.py template/*
  156 msite.py
   92 template/base.html
   79 template/category.html
   94 template/id.html
   47 template/index.html
   77 template/search.html

下面直接show一下爬蟲的編寫流程。以下內(nèi)容僅供交流學(xué)習(xí)使用,沒有別的意思。

以某灣的最新視頻下載資源為例,其網(wǎng)址是

http://某piratebay.se/browse/200

因?yàn)樵摼W(wǎng)頁(yè)里有大量廣告,只貼一下正文部分內(nèi)容:

對(duì)于一個(gè)python爬蟲,下載這個(gè)頁(yè)面的源代碼,一行代碼足以。這里用到urllib2庫(kù)。

>>> import urllib2
>>> html = urllib2.urlopen('http://某piratebay.se/browse/200').read()
>>> print 'size is', len(html)
size is 52977

當(dāng)然,也可以用os模塊里的system函數(shù)調(diào)用wget命令來下載網(wǎng)頁(yè)內(nèi)容,對(duì)于掌握了wget或者curl工具的同學(xué)是很方便的。

使用Firebug觀察網(wǎng)頁(yè)結(jié)構(gòu),可以知道正文部分html是一個(gè)table。每一個(gè)資源就是一個(gè)tr標(biāo)簽。

而對(duì)于每一個(gè)資源,需要提取的信息有:

1、視頻分類
2、資源名稱
3、資源鏈接
4、資源大小
5、上傳時(shí)間

就這么多就夠了,如果有需要,還可以增加。

首先提取一段tr標(biāo)簽里的代碼來觀察一下。

<tr>
  <td class="vertTh">
發(fā)表評(píng)論 共有條評(píng)論
用戶名: 密碼:
驗(yàn)證碼: 匿名發(fā)表
主站蜘蛛池模板: 濉溪县| 库伦旗| 灯塔市| 赤壁市| 来安县| 浪卡子县| 深水埗区| 麻栗坡县| 内江市| 包头市| 高唐县| 东光县| 临泉县| 绥芬河市| 平湖市| 靖远县| 额敏县| 枣强县| 鄂伦春自治旗| 曲水县| 廊坊市| 孝昌县| 墨竹工卡县| 莒南县| 塔城市| 施秉县| 青阳县| 普陀区| 彩票| 静宁县| 石楼县| 太白县| 东莞市| 韩城市| 阳谷县| 工布江达县| 保靖县| 英超| 兴安盟| 邓州市| 三亚市|