国产探花免费观看_亚洲丰满少妇自慰呻吟_97日韩有码在线_资源在线日韩欧美_一区二区精品毛片,辰东完美世界有声小说,欢乐颂第一季,yy玄幻小说排行榜完本

首頁 > 編程 > Python > 正文

python寫爬蟲2-數據抓取的三種方式

2019-11-09 19:49:49
字體:
來源:轉載
供稿:網友

python寫爬蟲2-數據抓取的三種方式

常用抽取網頁數據的方式有三種:正則表達式、Beautiful Soup、lxml

1.正則表達式

正則表達式有個很大的缺點是難以構造、可讀性差、不易適用未來網頁的變化。寫一段偽代碼:

import reurl = 'http://xxxx.com/sdffs'html = download(url)re.findall('正則表達式', html)

2.Beautiful Soup

這是一個非常流行的python模塊。安裝命令如下:

pip install beautifulsoup4

使用此模塊的第一步是將已下載的html內容解析為soup文檔。因許多html網頁格式不規范,Beautiful Soup可對其進行確定,將其調整為規范的html文件。 這里寫圖片描述

3.Lxml

Lxml是基于libxml2這一XML解析庫的python封裝。該模塊使用c語言編寫,解析速度比Beautiful Soup更快。 安裝命令如下:

pip install lxmlpip install CSSselect

如下代碼,從html中獲取class=country的ul標簽下,li標簽id=a的文本,獲取li標簽class=b的文本 這里寫圖片描述

4.三種方式的比較

抓取方法性能使用難度安裝難度
正則表達式困難簡單(內置模塊)
Beautiful Soup簡單簡單(純python)
Lxml簡單相對困難

通常,lxml是抓取數據最好的選擇,因為該方法既快速又健壯,而正則和Beautiful Soup只在某些特定場景下用。


發表評論 共有條評論
用戶名: 密碼:
驗證碼: 匿名發表
主站蜘蛛池模板: 比如县| 慈溪市| 嘉峪关市| 四平市| 九龙城区| 东至县| 三门峡市| 清原| 巴彦县| 海原县| 株洲县| 化州市| 滕州市| 金秀| 英山县| 松江区| 兰州市| 乌恰县| 潜江市| 化州市| 广汉市| 平定县| 沭阳县| 许昌市| 绥棱县| 德兴市| 邻水| 泌阳县| 安乡县| 抚顺县| 北票市| 华坪县| 葫芦岛市| 肃宁县| 东光县| 祁阳县| 桐柏县| 犍为县| 大理市| 会昌县| 神池县|