代碼
使用方法見注釋
#-*- coding: UTF-8 -*-from lxml import etreesource = u'''<div><p class="p1" data-a="1">測試數據1</p><p class="p1" data-a="2">測試數據2</p><p class="p1" data-a="3" style="height:100px;"><strong class="s">測試數據3</strong></p><p class="p1" data-a="4" width="200"><img src="1.jpg" class="img"/><br/>圖片</p>'''# 從字符串解析page = etree.HTML(source)# 元素列表ps = page.xpath("http://p")for p in ps: print u"屬性:%s" % p.attrib print u"文本:%s" % p.text# 文本列表ts = page.xpath("http://p/text()")for t in ts: print t# xpath定位 ls = page.xpath('//p[@class="p1"][last()]/img')for l in ls: print l.attrib以上這篇Python lxml解析HTML并用xpath獲取元素的方法就是小編分享給大家的全部內容了,希望能給大家一個參考,也希望大家多多支持武林站長站。
|
新聞熱點
疑難解答