python寫(xiě)爬蟲(chóng)2-數(shù)據(jù)抓取的三種方式

2019-11-09 19:44:28

字體：大中小

來(lái)源：轉(zhuǎn)載

供稿：網(wǎng)友

python寫(xiě)爬蟲(chóng)2-數(shù)據(jù)抓取的三種方式

常用抽取網(wǎng)頁(yè)數(shù)據(jù)的方式有三種：正則表達(dá)式、Beautiful Soup、lxml

1.正則表達(dá)式

正則表達(dá)式有個(gè)很大的缺點(diǎn)是難以構(gòu)造、可讀性差、不易適用未來(lái)網(wǎng)頁(yè)的變化。寫(xiě)一段偽代碼：

import reurl = 'http://xxxx.com/sdffs'html = download(url)re.findall('正則表達(dá)式', html)

2.Beautiful Soup

這是一個(gè)非常流行的python模塊。安裝命令如下：

pip install beautifulsoup4

使用此模塊的第一步是將已下載的html內(nèi)容解析為soup文檔。因許多html網(wǎng)頁(yè)格式不規(guī)范，Beautiful Soup可對(duì)其進(jìn)行確定，將其調(diào)整為規(guī)范的html文件。這里寫(xiě)圖片描述

3.Lxml

Lxml是基于libxml2這一XML解析庫(kù)的python封裝。該模塊使用c語(yǔ)言編寫(xiě)，解析速度比Beautiful Soup更快。安裝命令如下：

pip install lxmlpip install CSSselect

如下代碼，從html中獲取class=country的ul標(biāo)簽下，li標(biāo)簽id=a的文本，獲取li標(biāo)簽class=b的文本這里寫(xiě)圖片描述

4.三種方式的比較

抓取方法	性能	使用難度	安裝難度
正則表達(dá)式	快	困難	簡(jiǎn)單（內(nèi)置模塊）
Beautiful Soup	慢	簡(jiǎn)單	簡(jiǎn)單（純python）
Lxml	快	簡(jiǎn)單	相對(duì)困難

通常，lxml是抓取數(shù)據(jù)最好的選擇，因?yàn)樵摲椒瓤焖儆纸?，而正則和Beautiful Soup只在某些特定場(chǎng)景下用。

上一篇：python基礎(chǔ)

下一篇：Python實(shí)現(xiàn)的用于從布局文件的id生成成員變量聲明和findViewById語(yǔ)句的Android開(kāi)發(fā)小工具

學(xué)習(xí)交流

索泰發(fā)布一款GTX 1070 Mini迷你版本:小機(jī)

索泰發(fā)布一款GTX 1070 Mini迷你版本:小機(jī)箱大愛(ài)...

熱門(mén)圖片

猜你喜歡的新聞

猜你喜歡的關(guān)注

新聞熱點(diǎn)

榮耀總裁趙明烏鎮(zhèn)演講：榮耀首款5G手機(jī)V30下月發(fā)布

2019-10-23 09:17:05

搜狐張朝陽(yáng)：回歸媒體是搜狐重新崛起的關(guān)鍵

2019-10-21 09:20:02

華為輪值董事長(zhǎng)郭平：虛擬技術(shù)創(chuàng)造現(xiàn)實(shí)價(jià)值

2019-10-21 09:00:12

滴滴英文服務(wù)上線兩周年用戶已超200萬(wàn)

2019-09-26 08:57:12

華為推出全球至快AI訓(xùn)練集群Atlas900

2019-09-25 08:46:36

馬斯克：特斯拉正組建中國(guó)技術(shù)團(tuán)隊(duì)

2019-09-25 08:15:43

疑難解答

圖片精選

網(wǎng)友關(guān)注

国产探花免费观看_亚洲丰满少妇自慰呻吟_97日韩有码在线_资源在线日韩欧美_一区二区精品毛片,辰东完美世界有声小说,欢乐颂第一季,yy玄幻小说排行榜完本

python寫(xiě)爬蟲(chóng)2-數(shù)據(jù)抓取的三種方式

python寫(xiě)爬蟲(chóng)2-數(shù)據(jù)抓取的三種方式

1.正則表達(dá)式

2.Beautiful Soup

3.Lxml

4.三種方式的比較