python基礎教程項目三之萬能的XML

2020-01-04 15:30:12

字體：大中小

來源：轉載

供稿：網友

這個項目的名稱與其叫做萬能的XML不如叫做自動構建網站，根據一份XML文件，生成對應目錄結構的網站，不過只有html還是太過于簡單了，如果要是可以連帶生成css那就比較強大了。這個有待后續研發，先來研究下怎么html網站結構。既然是通過XML結構生成網站，那所有的事情都應該由這個XML文件來。先來看下這個XML文件，website.xml：

<website> <page name="index" <h1>Welcome to my Home page</h1> <p>Hi, there. My name is Mr.gumby,and this is my home page,here are some of my int:</p> <ul>  <li><a href="interests/shouting.html" rel="external nofollow" >Shouting</a></li>  <li><a href="interests/sleeping.html" rel="external nofollow" >Sleeping</a></li>  <li><a href="interests/eating.html" rel="external nofollow" >Eating</a></li> </ul> </page> <directory name="interests">  <page name="shouting"   <h1>shouting page</h1>   <p>....</p>  </page>  <page name="sleeping"   <h1>sleeping page</h1>   <p>...</p>  </page>  <page name="eating"    <h1>Eating page</h1>    <p>....</p>  </page> </directory></website>

有了這個文件，下面應該來看怎么通過這個文件生成網站。

首先我們要解析這個xml文件，python解析xml和在java中一樣，有兩種方式，SAX和DOM，兩種處理方式不同點在于速度和范圍，前者講究的是效率，每次只處理文檔的一小部分，快速而能有效的利用內存，后者是相反的處理方式，先把所有的文檔載入到內存，然后再進行處理，速度比較慢，也比較消耗內存，唯一的好處就是可以操作整個文檔。

在python中使用sax方式處理xml要先引入xml.sax中的parse函數，還有xml.sax.handler中的ContentHandler，后面的這個類是要和parse函數來配合使用的。使用方式如下： parse('xxx.xml',xxxHandler),這里面的xxxHandler要繼承上面的ContentHandler，不過只要繼承就行，不需要有所作為。然后這個parse函數在處理xml文件的時候，會調用xxxHandler中的startElement函數和endElement函數來一個xml中的標簽的開始和結束，中間的過程使用一個名為characters的函數來處理標簽內部的所有字符串。

有了上面的這些認識，我們已經知道如何處理xml文件了，然后再來看那個罪惡的源頭website.xml文件，分析其結構，只有兩個節點：page和directory，很明顯page表示一個頁面，directory表示一個目錄。

所以處理這個xml文件的思路就變的清晰了。讀取xml文件的每一個節點，然后判斷是page還是directory如果是page則創建html頁面，然后把節點中的內容寫到文件里。如果遇到directory就創建一個文件夾，然后再處理其內部的page節點（如果存在的話）。
下面來看這部分代碼，書中的實現比較復雜，比較靈活。先來看，然后在分析。

from xml.sax.handler import ContentHandlerfrom xml.sax import parseimport osclass Dispatcher:    def dispatch(self, prefix, name, attrs=None):        mname = prefix + name.capitalize()        dname = 'default' + prefix.capitalize()        method = getattr(self, mname, None)        if callable(method): args = ()        else:            method = getattr(self, dname, None)            args = name,        if prefix == 'start': args += attrs,        if callable(method): method(*args)    def startElement(self, name, attrs):        self.dispatch('start', name, attrs)    def endElement(self, name):        self.dispatch('end', name)class WebsiteConstructor(Dispatcher, ContentHandler):    passthrough = False    def __init__(self, directory):        self.directory = [directory]        self.ensureDirectory()    def ensureDirectory(self):        path = os.path.join(*self.directory)        print path        print '----'        if not os.path.isdir(path): os.makedirs(path)    def characters(self, chars):        if self.passthrough: self.out.write(chars)    def defaultStart(self, name, attrs):        if self.passthrough:            self.out.write('<' + name)            for key, val in attrs.items():                self.out.write(' %s="%s"' %(key, val))            self.out.write('>')    def defaultEnd(self, name):        if self.passthrough:            self.out.write('</%s>' % name)    def startDirectory(self, attrs):        self.directory.append(attrs['name'])        self.ensureDirectory()    def endDirectory(self):        print 'endDirectory'        self.directory.pop()    def startPage(self, attrs):        print 'startPage'        filename = os.path.join(*self.directory + [attrs['name']+'.html'])        self.out = open(filename, 'w')        self.writeHeader(attrs['title'])        self.passthrough = True    def endPage(self):        print 'endPage'        self.passthrough = False        self.writeFooter()        self.out.close()    def writeHeader(self, title):        self.out.write('<html>/n <head>/n  <title>')        self.out.write(title)        self.out.write('</title>/n </head>/n <body>/n')    def writeFooter(self):        self.out.write('/n </body>/n</html>/n')parse('website.xml',WebsiteConstructor('public_html'))

看起來這個程序上面分析的復雜了一些，不過偉人毛毛說過，任何復雜的程序都是紙老虎。那我們再來分析一下這個程序。

首先看到這個程序是有兩個類，其實完全可以當作一個類，因為有了繼承。

然后再來看它多了些什么，除了我們分析出來的startElement和endElement以及characters，多出來了startPage，endPage;startDirectory，endDirectory;defaultStart，defaultEnd;ensureDirectory;writeHeader，writeFooter;和dispatch，這些個函數。除了dispatch，前面的函數都很好理解，每一對函數都是單純的處理對應的html標簽以及xml節點。而dispatch比較復雜，復雜之處在于他是用來動態拼合函數并且進行執行的。

dispatch的處理思路是，首先根據傳遞的參數（就是操作名稱以及節點名稱）判斷是否存在對應的函數如startPage，如果不存在則執行default+操作名稱：如defaultStart。

一個函數一個函數搞清楚之后，就知道整個處理流程是什么樣了。首先創建一個public_html的文件，存放整個網站，然后讀xml的節點，通過startElement和endElement調用dispatch進行處理。然后就是dispatch怎么調用具體的處理函數了。到此為止，這個項目算是分析完了。

主要掌握的內容一個是python中使用SAX處理XML，另一個就是python中的函數的使用，比如getattr，傳參數時的星號……

以上就是本文的全部內容，希望對大家的學習有所幫助，也希望大家多多支持VEVB武林網。

注：相關教程知識閱讀請移步到python教程頻道。

上一篇：python opencv檢測目標顏色的實例講解

下一篇：Python實現將數據框數據寫入mongodb及mysql數據庫的方法