前幾天遇到一個問題,需要把網(wǎng)頁中的一部分內(nèi)容挑出來,于是找到了urllib和HTMLParser兩個庫.urllib可以將網(wǎng)頁爬下來,然后交由HTMLParser解析,初次使用這個庫,在查官方文檔時也遇到了一些問題,在這里寫下來與大家分享.
一個例子
HTMLParser方法的調(diào)用方式困惑了我很長時間,看了很多博文才恍然大悟,HTMLParser含有的方法分為兩類,一類是需要顯式調(diào)用的,而另一類不需顯示調(diào)用.
不需顯式調(diào)用的方法
下面的這些函數(shù)在解析的過程中會觸發(fā),但是默認情況下不會產(chǎn)生任何副作用,因而我們要根據(jù)自己的需求重載.
1.HTMLParser.handle_starttag(tag,attrs): 解析時遇到開始標簽調(diào)用,如<p class='para'>,參數(shù)tag是標簽名,這里是'p',attrs為標簽所有屬性(name,value)列表,這里是[('class','para')]
2.HTMLParser.handle_endtag(tag): 遇到結(jié)束標簽時調(diào)用,tag是標簽名
3.HTMLPars.handle_data(data): 遇到標簽中間的內(nèi)容時調(diào)用,如<style> p {color: blue; }</style>,參數(shù)data為開閉標簽間的內(nèi)容.值得注意的是在形如<div><p>...</p></div>的位置,并不會在div處調(diào)用,而是只在p處調(diào)用
當(dāng)然還有其他函數(shù),這里不做介紹
顯式調(diào)用的方法
1.HTMLParser.feed(data): 參數(shù)為需要解析的html字符串,調(diào)用后字符串開始被解析
2.HTMLParser.getpos(): 返回當(dāng)前的行號和偏移位置,如(23,5)
3.HTMLParser.get_starttag_text(): 返回當(dāng)前位置最近的開始標簽的內(nèi)容
所有的內(nèi)容寫完了,最后還有一點注意事項,HTMLParser只是一個簡單的模塊,解析html的功能并不完善,例如不能準確的分別開標簽和"自閉標簽",看下面代碼:
str1='<br>'
str2='<br/>'
parser=MyHTMLParser()
parser.feed(str1) # 輸出 "begin tag br"
parser.feed(str2) # 輸出 "begin end br"
新聞熱點
疑難解答
圖片精選