python寫爬蟲2-數據抓取的三種方式

2019-11-09 19:27:54

字體：大中小

來源：轉載

供稿：網友

python寫爬蟲2-數據抓取的三種方式

常用抽取網頁數據的方式有三種：正則表達式、Beautiful Soup、lxml

1.正則表達式

正則表達式有個很大的缺點是難以構造、可讀性差、不易適用未來網頁的變化。寫一段偽代碼：

import reurl = 'http://xxxx.com/sdffs'html = download(url)re.findall('正則表達式', html)

2.Beautiful Soup

這是一個非常流行的python模塊。安裝命令如下：

pip install beautifulsoup4

使用此模塊的第一步是將已下載的html內容解析為soup文檔。因許多html網頁格式不規范，Beautiful Soup可對其進行確定，將其調整為規范的html文件。這里寫圖片描述

3.Lxml

Lxml是基于libxml2這一XML解析庫的python封裝。該模塊使用c語言編寫，解析速度比Beautiful Soup更快。安裝命令如下：

pip install lxmlpip install CSSselect

如下代碼，從html中獲取class=country的ul標簽下，li標簽id=a的文本，獲取li標簽class=b的文本這里寫圖片描述

4.三種方式的比較

抓取方法	性能	使用難度	安裝難度
正則表達式	快	困難	簡單（內置模塊）
Beautiful Soup	慢	簡單	簡單（純python）
Lxml	快	簡單	相對困難

通常，lxml是抓取數據最好的選擇，因為該方法既快速又健壯，而正則和Beautiful Soup只在某些特定場景下用。

上一篇：python pandas中series與dataframe數據類型屬性及操作基礎

下一篇：Python 方法中變量加self和不加的區別

學習交流

索泰發布一款GTX 1070 Mini迷你版本:小機

索泰發布一款GTX 1070 Mini迷你版本:小機箱大愛...

熱門圖片

猜你喜歡的新聞

猜你喜歡的關注

新聞熱點

榮耀總裁趙明烏鎮演講：榮耀首款5G手機V30下月發布

2019-10-23 09:17:05

搜狐張朝陽：回歸媒體是搜狐重新崛起的關鍵

2019-10-21 09:20:02

華為輪值董事長郭平：虛擬技術創造現實價值

2019-10-21 09:00:12

滴滴英文服務上線兩周年用戶已超200萬

2019-09-26 08:57:12

華為推出全球至快AI訓練集群Atlas900

2019-09-25 08:46:36

馬斯克：特斯拉正組建中國技術團隊

2019-09-25 08:15:43

疑難解答

圖片精選

網友關注

国产探花免费观看_亚洲丰满少妇自慰呻吟_97日韩有码在线_资源在线日韩欧美_一区二区精品毛片,辰东完美世界有声小说,欢乐颂第一季,yy玄幻小说排行榜完本

python寫爬蟲2-數據抓取的三種方式

python寫爬蟲2-數據抓取的三種方式

1.正則表達式

2.Beautiful Soup

3.Lxml

4.三種方式的比較