Python中使用ElementTree解析XML示例

2019-11-25 17:20:10

字體：大中小

供稿：網(wǎng)友

【XML基本概念介紹】

XML 指可擴(kuò)展標(biāo)記語(yǔ)言（eXtensible Markup Language）。
XML 被設(shè)計(jì)用來傳輸和存儲(chǔ)數(shù)據(jù)。
概念一:

<foo>      # foo元素的起始標(biāo)簽  
</foo>     # foo元素的結(jié)束標(biāo)簽  
           # note: 每一個(gè)起始標(biāo)簽必須有對(duì)應(yīng)的結(jié)束標(biāo)簽來閉合， 也可以寫成<foo/>  

概念二:

復(fù)制代碼代碼如下:

<foo>           # 元素可以嵌套到任意參次  
  <bar></bar>   # bar元素為foo元素的子元素  
</foo>          # 父元素foo的結(jié)束標(biāo)簽  

概念三:

復(fù)制代碼代碼如下:

<foo lang='EN'>                  # foo元素有個(gè)lang的屬性，該屬性值為: EN；對(duì)應(yīng)Python字典(Name-Value)對(duì)；                              
  <bar id='001' lang="CH"></bar> # bar元素有個(gè)lang的屬性，該屬性值為: CH；還有個(gè)id屬性，值為:001，放置在''或“”中；   
</foo>                           # bar元素中的lang屬性不會(huì)和foo元素中相沖突，每個(gè)元素都有獨(dú)立的屬性集； 

概念四:

復(fù)制代碼代碼如下:

<title>Learning Python</title> # 元素可以有文本內(nèi)容  
                                # Note:如果一個(gè)元素即沒有文本內(nèi)容，也沒有子元素，則為空元素。  

概念五:

復(fù)制代碼代碼如下:

<info>                                  # info元素為根節(jié)點(diǎn)  
    <list id='001'> A </list>           # list元素為子節(jié)點(diǎn)  
    <list id='002'> B </list>   
    <list id='003'> C </list>  
</info>  

概念六:

復(fù)制代碼代碼如下:

<feed xmlns='http://www.w3.org/2005/Atom'>  # 可以通過聲明xmlns來定義默認(rèn)名字空間，feed元素處于http://www.w3.org/2005/Atom命名空間中  
  <title>dive into mark</title>             # title元素也是。名字空間聲明不僅會(huì)作用于當(dāng)前聲明它的元素，還會(huì)影響到該元素的所有子元素  
</feed>  
也可以通過xmlns:prefix聲明來定義一個(gè)名字空間并取其名為prefix。
然后該名字空間中的每個(gè)元素都必須顯式地使用這個(gè)前綴(prefix)來聲明。
<atom:feed xmlns:atom='http://www.w3.org/2005/Atom'>  # feed屬于命名空間atom  
  <atom:title>dive into mark</atom:title>             # title元素同樣屬于該命名空間             
</atom:feed>                                          # xmlns(XML Name Space)  

【XML幾種解析方法】

常見的XML編程接口有DOM和SAX，這兩種接口處理XML文件的方式不同，使用場(chǎng)合自然也就不同。

Python有三種方法解析XML: SAX，DOM，以及ElementTree:

1.SAX (Simple API for XML )

Pyhton標(biāo)準(zhǔn)庫(kù)包含SAX解析器，SAX用事件驅(qū)動(dòng)模型，通過在解析XML的過程中觸發(fā)一個(gè)個(gè)的事件并調(diào)用用戶定義的回調(diào)函數(shù)來處理XML文件。SAX是一種基于事件驅(qū)動(dòng)的API。利用SAX解析XML文檔牽涉到兩個(gè)部分:解析器和事件處理器。
解析器負(fù)責(zé)讀取XML文檔,并向事件處理器發(fā)送事件,如元素開始及結(jié)束事件;而事件處理器則負(fù)責(zé)對(duì)事件作出處理。
優(yōu)點(diǎn):SAX流式讀取XML文件，比較快，占用內(nèi)存少。
缺點(diǎn):需要用戶實(shí)現(xiàn)回調(diào)函數(shù)（handler）。

2.DOM(Document Object Model)

將XML數(shù)據(jù)在內(nèi)存中解析成一個(gè)樹，通過對(duì)樹的操作來操作XML。一個(gè)DOM的解析器在解析一個(gè)XML文檔時(shí)，一次性讀取整個(gè)文檔，把文檔中所有元素保存在內(nèi)存中的一個(gè)樹結(jié)構(gòu)里，之后你可以利用DOM提供的不同的函數(shù)來讀取或修改文檔的內(nèi)容和結(jié)構(gòu)，也可以把修改過的內(nèi)容寫入xml文件。
優(yōu)點(diǎn):使用DOM的好處是你不需要對(duì)狀態(tài)進(jìn)行追蹤，因?yàn)槊恳粋€(gè)節(jié)點(diǎn)都知道誰(shuí)是它的父節(jié)點(diǎn)，誰(shuí)是子節(jié)點(diǎn).
缺點(diǎn):DOM需要將XML數(shù)據(jù)映射到內(nèi)存中的樹，一是比較慢，二是比較耗內(nèi)存，使用起來也比較麻煩！

3.ElementTree(元素樹)

ElementTree就像一個(gè)輕量級(jí)的DOM，具有方便友好的API。代碼可用性好，速度快，消耗內(nèi)存少。
相比而言，第三種方法，即方便，又快速，我們一直用它！下面介紹用元素樹如何解析XML:

【ElementTree解析】

兩種實(shí)現(xiàn)

ElementTree生來就是為了處理XML ，它在Python標(biāo)準(zhǔn)庫(kù)中有兩種實(shí)現(xiàn)。
一種是純Python實(shí)現(xiàn)，例如: xml.etree.ElementTree
另外一種是速度快一點(diǎn)的: xml.etree.cElementTree
盡量使用C語(yǔ)言實(shí)現(xiàn)的那種，因?yàn)樗俣雀?，而且消耗的?nèi)存更少! 在程序中可以這樣寫:

復(fù)制代碼代碼如下:

try:  
    import xml.etree.cElementTree as ET  
except ImportError:  
    import xml.etree.ElementTree as ET  

常用方法

復(fù)制代碼代碼如下:

# 當(dāng)要獲取屬性值時(shí)，用attrib方法。  
# 當(dāng)要獲取節(jié)點(diǎn)值時(shí)，用text方法。  
# 當(dāng)要獲取節(jié)點(diǎn)名時(shí)，用tag方法。  

示例XML

復(fù)制代碼代碼如下:

<?xml version="1.0" encoding="utf-8"?>  
<info>  
   <intro>Book message</intro>  
    <list id='001'>  
        <head>bookone</head>  
        <name>python check</name>  
        <number>001</number>  
        <page>200</page>  
    </list>  
    <list id='002'>  
        <head>booktwo</head>  
        <name>python learn</name>  
        <number>002</number>  
        <page>300</page>  
    </list>  
</info>  

###########
## 加載XML
###########

方法一:加載文件

復(fù)制代碼代碼如下:

root = ET.parse('book.xml')

方法二:加載字符串

復(fù)制代碼代碼如下:

root = ET.fromstring(xmltext)

###########
## 獲取節(jié)點(diǎn)
###########

方法一:獲得指定節(jié)點(diǎn)->getiterator()方法

復(fù)制代碼代碼如下:

book_node = root.getiterator('list')

方法二:獲得指定節(jié)點(diǎn)->findall()方法

復(fù)制代碼代碼如下:

book_node = root.findall('list')

方法三:獲得指定節(jié)點(diǎn)->find()方法

復(fù)制代碼代碼如下:

book_node = root.find('list')

方法四:獲得兒子節(jié)點(diǎn)->getchildren()

復(fù)制代碼代碼如下:

for node in book_node:  
    book_node_child = node.getchildren()[0]  
    print book_node_child.tag, '=> ', book_node_child.text
 

###########
## 例子01
###########

復(fù)制代碼代碼如下:

# coding=utf-8  
  
try:                                           # 導(dǎo)入模塊  
    import xml.etree.cElementTree as ET  
except ImportError:  
    import xml.etree.ElementTree as ET  
  
root   = ET.parse('book.xml')                 # 分析XML文件  
books  = root.findall('/list')                # 查找所有根目錄下的list的子節(jié)點(diǎn)  
for book_list in books:                       # 對(duì)查找后的結(jié)果遍歷  
    print "=" * 30                            # 輸出格式             
    for book in book_list:                    # 對(duì)每個(gè)子節(jié)點(diǎn)再進(jìn)行遍歷，找出里面你的屬性及值                       
        if book.attrib.has_key('id'):         # 一句id來做條件判斷  
            print "id:", book.attrib['id']    # 根據(jù)id打印出屬性值  
        print book.tag + '=> ' + book.text    # 輸出標(biāo)簽及文本內(nèi)容  
print "=" * 30  

輸出結(jié)果:

復(fù)制代碼代碼如下:

==============================  
head=> bookone  
name=> python check  
number=> 001  
page=> 200  
==============================  
head=> booktwo  
name=> python learn  
number=> 002  
page=> 300  
==============================  

PS：這里再為大家提供幾款關(guān)于xml操作的在線工具供大家參考使用：

在線XML/JSON互相轉(zhuǎn)換工具：
http://tools.VeVB.COm/code/xmljson

在線格式化XML/在線壓縮XML：
http://tools.VeVB.COm/code/xmlformat

XML在線壓縮/格式化工具：
http://tools.VeVB.COm/code/xml_format_compress

上一篇：python實(shí)現(xiàn)的守護(hù)進(jìn)程(Daemon)用法實(shí)例

下一篇：Python文檔生成工具pydoc使用介紹