http://blog.csdn.net/my2010sam/article/details/14526223
---------------------
對html的解析是網頁抓取的基礎,分析抓取的結果找到自己想要的內容或標簽以達到抓取的目的。
HTMLParser是python用來解析html的模塊。它可以分析出html里面的標簽、數據等等,是一種處理html的簡便途徑。 HTMLParser采用的是一種事件驅動的模式,當HTMLParser找到一個特定的標記時,它會去調用一個用戶定義的函數,以此來通知程序處理。它主要的用戶回調函數的命名都是以handler_開頭的,都是HTMLParser的成員函數。當我們使用時,就從HTMLParser派生出新的類,然后重新定義這幾個以handler_開頭的函數即可。這幾個函數包括:
def handle_starttag(self,tag,attr):
        #注意:tag不區分大小寫,此時也可以解析 <A 標簽
        # SGMLParser 會在創建attrs 時將屬性名轉化為小寫。
        if tag=='a':
            for href,link in attr:
                if href.lower()=="href":
                        pass
1. 基本解析,找到開始和結束標簽
或:
新聞熱點
疑難解答