web數(shù)據(jù)抓取是一個(gè)經(jīng)常在python的討論中出現(xiàn)的主題。有很多方法可以用來進(jìn)行web數(shù)據(jù)抓取,然而其中好像并沒有一個(gè)最好的辦法。有一些如scrapy這樣十分成熟的框架,更多的則是像mechanize這樣的輕量級(jí)庫。DIY自己的解決方案同樣十分流行:你可以使用requests、beautifulsoup或者pyquery來實(shí)現(xiàn)。
方法如此多樣的原因在于,數(shù)據(jù)“抓取”實(shí)際上包括很多問題:你不需要使用相同的工具從成千上萬的頁面中抓取數(shù)據(jù),同時(shí)使一些Web工作流自動(dòng)化(例如填一些表單然后取回?cái)?shù)據(jù))。我喜歡DIY的原因在于其靈活性,但是卻不適合用來做大量數(shù)據(jù)的抓取,因?yàn)樾枰埱笸?,所以大量的請求意味著你不得不等待很長時(shí)間。
在本文中,我將會(huì)為你展示一個(gè)基于新的異步庫(aiohttp)的請求的代替品。我使用它寫了一些速度的確很快的小數(shù)據(jù)抓取器,下面我將會(huì)為你演示是如何做到的。
asyncio的基本概念
asyncio是在python3.4中被引進(jìn)的異步IO庫。你也可以通過python3.3的pypi來安裝它。它相當(dāng)?shù)膹?fù)雜,而且我不會(huì)介紹太多的細(xì)節(jié)。相反,我將會(huì)解釋你需要知道些什么,以利用它來寫異步的代碼。
簡而言之,有兩件事情你需要知道:協(xié)同程序和事件循環(huán)。協(xié)同程序像是方法,但是它們可以在代碼中的特定點(diǎn)暫停和繼續(xù)。當(dāng)在等待一個(gè)IO(比如一個(gè)HTTP請求),同時(shí)執(zhí)行另一個(gè)請求的時(shí)候,可以用來暫停一個(gè)協(xié)同程序。我們使用關(guān)鍵字yield from來設(shè)定一個(gè)狀態(tài),表明我們需要一個(gè)協(xié)同程序的返回值。而事件循環(huán)則被用來安排協(xié)同程序的執(zhí)行。
關(guān)于asyncio還有很多很多,但是以上是我們到目前為止需要知道的。可能你還有些不清楚,那么讓我們來看一些代碼吧。
aiohttp
aiohttp是一個(gè)利用asyncio的庫,它的API看起來很像請求的API。到目前為止,相關(guān)文檔還不健全。但是這里有一些非常有用的例子。我們將會(huì)演示它的基本用法。
首先,我們會(huì)定義一個(gè)協(xié)同程序用來獲取頁面,并打印出來。我們使用 asyncio.coroutine將一個(gè)方法裝飾成一個(gè)協(xié)同程序。aiohttp.request是一個(gè)協(xié)同程序,所以它是一個(gè)可讀方法,我們需要使用yield from來調(diào)用它們。除了這些,下面的代碼看起來相當(dāng)直觀:
@asyncio.coroutinedef print_page(url): response = yield from aiohttp.request('GET', url) body = yield from response.read_and_close(decode=True) print(body)如你所見,我們可以使用yield from從另一個(gè)協(xié)同程序中調(diào)用一個(gè)協(xié)同程序。為了從同步代碼中調(diào)用一個(gè)協(xié)同程序,我們需要一個(gè)事件循環(huán)。我們可以通過asyncio.get_event_loop()得到一個(gè)標(biāo)準(zhǔn)的事件循環(huán),之后使用它的run_until_complete()方法來運(yùn)行協(xié)同程序。所以,為了使之前的協(xié)同程序運(yùn)行,我們只需要做下面的步驟:
loop = asyncio.get_event_loop()loop.run_until_complete(print_page('http://example.com'))一個(gè)有用的方法是asyncio.wait,通過它可以獲取一個(gè)協(xié)同程序的列表,同時(shí)返回一個(gè)將它們?nèi)ㄔ趦?nèi)的單獨(dú)的協(xié)同程序,所以我們可以這樣寫:
loop.run_until_complete(asyncio.wait([print_page('http://example.com/foo'), print_page('http://example.com/bar')]))另一個(gè)是asyncio.as_completed,通過它可以獲取一個(gè)協(xié)同程序的列表,同時(shí)返回一個(gè)按完成順序生成協(xié)同程序的迭代器,因此當(dāng)你用它迭代時(shí),會(huì)盡快得到每個(gè)可用的結(jié)果。
數(shù)據(jù)抓取
現(xiàn)在我們知道了如何做異步HTTP請求,因此我們可以來寫一個(gè)數(shù)據(jù)抓取器了。我們僅僅還需要一些工具來讀取html頁面,我使用了beautifulsoup來做這個(gè)事情,其余的像 pyquery或lxml也可以實(shí)現(xiàn)。
在這個(gè)例子中,我們會(huì)寫一個(gè)小數(shù)據(jù)抓取器來從海盜灣抓取一些linux distributions的torrent 鏈路(海盜灣(英語:The Pirate Bay,縮寫:TPB)是一個(gè)專門存儲(chǔ)、分類及搜索Bittorrent種子文件的網(wǎng)站,并自稱“世界最大的BitTorrent tracker(BT種子服務(wù)器)”,提供的BT種子除了有自由版權(quán)的收集外,也有不少被著作人聲稱擁有版權(quán)的音頻、視頻、應(yīng)用軟件與電子游戲等,為網(wǎng)絡(luò)分享與下載的重要網(wǎng)站之一 主站蜘蛛池模板: 宝清县| 五指山市| 万州区| 钟祥市| 克东县| 新丰县| 濉溪县| 宜川县| 彭水| 冷水江市| 榆社县| 毕节市| 井陉县| 湟源县| 汉阴县| 灵璧县| 泽库县| 图们市| 将乐县| 沂南县| 黑水县| 宜宾市| 江津市| 宾川县| 潼关县| 阿拉善左旗| 霍林郭勒市| 苗栗县| 交城县| 惠安县| 武川县| 喀喇沁旗| 龙口市| 四会市| 兴城市| 老河口市| 磴口县| 河间市| 鹿邑县| 呼玛县| 新化县|