Python之HTML的解析（網頁抓取一）

2019-11-14 17:06:55

字體：大中小

來源：轉載

供稿：網友

http://blog.csdn.net/my2010sam/article/details/14526223

---------------------

對html的解析是網頁抓取的基礎，分析抓取的結果找到自己想要的內容或標簽以達到抓取的目的。

HTMLParser是python用來解析html的模塊。它可以分析出html里面的標簽、數據等等，是一種處理html的簡便途徑。 HTMLParser采用的是一種事件驅動的模式，當HTMLParser找到一個特定的標記時，它會去調用一個用戶定義的函數，以此來通知程序處理。它主要的用戶回調函數的命名都是以handler_開頭的，都是HTMLParser的成員函數。當我們使用時，就從HTMLParser派生出新的類，然后重新定義這幾個以handler_開頭的函數即可。這幾個函數包括：

handle_startendtag 處理開始標簽和結束標簽
handle_starttag 處理開始標簽，比如<xx> tag不區分大小寫
handle_endtag 處理結束標簽，比如</xx>
handle_charref 處理特殊字符串，就是以&#開頭的，一般是內碼表示的字符
handle_entityref 處理一些特殊字符，以&開頭的，比如  
handle_data 處理數據，就是<xx>data</xx>中間的那些數據
handle_comment 處理注釋
handle_decl 處理<!開頭的，比如<!DOCTYPE html PUBLIC “-//W3C//DTD HTML 4.01 Transitional//EN”
handle_pi 處理形如<?instruction>的東西

def handle_starttag(self,tag,attr):
#注意：tag不區分大小寫，此時也可以解析 <A 標簽

# SGMLParser 會在創建attrs 時將屬性名轉化為小寫。

        if tag=='a':
            for href,link in attr:
                if href.lower()=="href":

pass

1. 基本解析，找到開始和結束標簽

[python] view plain copy

<span style="font-size:18px;">#coding:utf-8

from HTMLParser import HTMLParser

'''''

HTMLParser的成員函數:

handle_startendtag 處理開始標簽和結束標簽

handle_starttag 處理開始標簽，比如<xx>

handle_endtag 處理結束標簽，比如</xx>

handle_charref 處理特殊字符串，就是以&#開頭的，一般是內碼表示的字符

handle_entityref 處理一些特殊字符，以&開頭的，比如

handle_data 處理數據，就是<xx>data</xx>中間的那些數據

handle_comment 處理注釋

handle_decl 處理<!開頭的，比如<!DOCTYPE html PUBLIC “-//W3C//DTD HTML 4.01 Transitional//EN”

handle_pi 處理形如<?instruction>的東西

'''

class myHtmlParser(HTMLParser):

#處理<!開頭的內容

def handle_decl(self,decl):

<span style="font-size:18px;">#coding:utf-8

from HTMLParser import HTMLParser

class myHtmlParser(HTMLParser):

def __init__(self):

HTMLParser.__init__(self)

self.flag=None

# 這里重新定義了處理開始標簽的函數

def handle_starttag(self,tag,attrs):

# 判斷標簽<a>的屬性

if tag=='a':

self.flag='a'

for href,link in attrs:

if href=='href':

print "href:",link

def handle_data(self,data):

if self.flag=='a':

print "data:",data.decode('utf-8')

if __name__ == '__main__':

a = '<!DOCTYPE html PUBLIC "-//W3C//DTD HTML 4.01 Transitional//EN" "http://www.w3.org/TR/html4/loose.dtd">/

<html><head><title>test</title><body><a href="http: //www.163.com">鏈接到163</a></body></html>'

m=myHtmlParser()

m.feed(a)

m.close()

輸出結果：

href: http: //www.163.com

data: 鏈接到163</span>

或：

[python]

国产探花免费观看_亚洲丰满少妇自慰呻吟_97日韩有码在线_资源在线日韩欧美_一区二区精品毛片,辰东完美世界有声小说,欢乐颂第一季,yy玄幻小说排行榜完本

Python之HTML的解析（網頁抓取一）