国产探花免费观看_亚洲丰满少妇自慰呻吟_97日韩有码在线_资源在线日韩欧美_一区二区精品毛片,辰东完美世界有声小说,欢乐颂第一季,yy玄幻小说排行榜完本

首頁 > 編程 > Python > 正文

python寫爬蟲2-數據抓取的三種方式

2019-11-09 19:27:54
字體:
來源:轉載
供稿:網友

python寫爬蟲2-數據抓取的三種方式

常用抽取網頁數據的方式有三種:正則表達式、Beautiful Soup、lxml

1.正則表達式

正則表達式有個很大的缺點是難以構造、可讀性差、不易適用未來網頁的變化。寫一段偽代碼:

import reurl = 'http://xxxx.com/sdffs'html = download(url)re.findall('正則表達式', html)

2.Beautiful Soup

這是一個非常流行的python模塊。安裝命令如下:

pip install beautifulsoup4

使用此模塊的第一步是將已下載的html內容解析為soup文檔。因許多html網頁格式不規范,Beautiful Soup可對其進行確定,將其調整為規范的html文件。 這里寫圖片描述

3.Lxml

Lxml是基于libxml2這一XML解析庫的python封裝。該模塊使用c語言編寫,解析速度比Beautiful Soup更快。 安裝命令如下:

pip install lxmlpip install CSSselect

如下代碼,從html中獲取class=country的ul標簽下,li標簽id=a的文本,獲取li標簽class=b的文本 這里寫圖片描述

4.三種方式的比較

抓取方法性能使用難度安裝難度
正則表達式困難簡單(內置模塊)
Beautiful Soup簡單簡單(純python)
Lxml簡單相對困難

通常,lxml是抓取數據最好的選擇,因為該方法既快速又健壯,而正則和Beautiful Soup只在某些特定場景下用。


發表評論 共有條評論
用戶名: 密碼:
驗證碼: 匿名發表
主站蜘蛛池模板: 泰来县| 四川省| 巫山县| 博乐市| 镇沅| 霍州市| 比如县| 衡东县| 孝义市| 惠安县| 宿迁市| 沅江市| 宁陕县| 会同县| 蒙城县| 泉州市| 江山市| 苏州市| 梅河口市| 上高县| 桂平市| 乌鲁木齐市| 晋州市| 永济市| 马关县| 鄂温| 麻城市| 南华县| 炉霍县| 榆社县| 南雄市| 奎屯市| 凉山| 绥宁县| 博罗县| 伽师县| 开化县| 花垣县| 平陆县| 突泉县| 长丰县|