python爬蟲xpath的語法

2019-11-14 17:07:06

字體：大中小

來源：轉(zhuǎn)載

供稿：網(wǎng)友

有朋友問我正則，，okey，其實我的正則也不好，但是python下xpath是相對較簡單的

簡單了解一下xpath：

XPath 是一門在 xml 文檔中查找信息的語言。XPath 可用來在 XML 文檔中對元素和屬性進行遍歷。

XPath 是 W3C XSLT 標準的主要元素，并且 XQuery 和 XPointer 都構(gòu)建于 XPath 表達之上。

因此，對 XPath 的理解是很多高級 XML 應(yīng)用的基礎(chǔ)。

這個是w3c上關(guān)于xpath的介紹，可以看出xpath是在xml文檔中查詢信息的語言

在 XPath 中，有七種類型的節(jié)點：元素、屬性、文本、命名空間、處理指令、注釋以及文檔（根）節(jié)點。XML 文檔是被作為節(jié)點樹來對待的。樹的根被稱為文檔節(jié)點或者根節(jié)點。

根節(jié)點在xpath中可以用“//”來啊表示

XPath 使用路徑表達式來選取 XML 文檔中的節(jié)點或節(jié)點集。節(jié)點是通過沿著路徑 (path) 或者步 (steps) 來選取的。

接下來一個例子

<?xml version="1.0" encoding="ISO-8859-1"?><bookstore><book>  <title lang="eng">Harry Potter</title>  <PRice>29.99</price></book><book>  <title lang="eng">Learning XML</title>  <price>39.95</price></book></bookstore>

這個是基本的語法（掌握了這些基本都可以抓取到）：

表達式	描述
nodename	選取此節(jié)點的所有子節(jié)點。
/	從根節(jié)點選取。
//	從匹配選擇的當前節(jié)點選擇文檔中的節(jié)點，而不考慮它們的位置。
.	選取當前節(jié)點。
..	選取當前節(jié)點的父節(jié)點。
@	選取屬性。

實例

在下面的表格中，我們已列出了一些路徑表達式以及表達式的結(jié)果：

路徑表達式	結(jié)果
bookstore	選取 bookstore 元素的所有子節(jié)點。
/bookstore	選取根元素 bookstore。注釋：假如路徑起始于正斜杠( / )，則此路徑始終代表到某元素的絕對路徑！
bookstore/book	選取屬于 bookstore 的子元素的所有 book 元素。
//book	選取所有 book 子元素，而不管它們在文檔中的位置。
bookstore//book	選擇屬于 bookstore 元素的后代的所有 book 元素，而不管它們位于 bookstore 之下的什么位置。
//@lang	選取名為 lang 的所有屬性。

謂語（Predicates）

謂語用來查找某個特定的節(jié)點或者包含某個指定的值的節(jié)點。

謂語被嵌在方括號中。

實例

在下面的表格中，我們列出了帶有謂語的一些路徑表達式，以及表達式的結(jié)果：

路徑表達式	結(jié)果
/bookstore/book[1]	選取屬于 bookstore 子元素的第一個 book 元素。
/bookstore/book[last()]	選取屬于 bookstore 子元素的最后一個 book 元素。
/bookstore/book[last()-1]	選取屬于 bookstore 子元素的倒數(shù)第二個 book 元素。
/bookstore/book[position()<3]	選取最前面的兩個屬于 bookstore 元素的子元素的 book 元素。
//title[@lang]	選取所有擁有名為 lang 的屬性的 title 元素。
//title[@lang='eng']	選取所有 title 元素，且這些元素擁有值為 eng 的 lang 屬性。
/bookstore/book[price>35.00]	選取 bookstore 元素的所有 book 元素，且其中的 price 元素的值須大于 35.00。
/bookstore/book[price>35.00]/title	選取 bookstore 元素中的 book 元素的所有 title 元素，且其中的 price 元素的值須大于 35.00。

選取未知節(jié)點

XPath 通配符可用來選取未知的 XML 元素。

通配符	描述
*	匹配任何元素節(jié)點。
@*	匹配任何屬性節(jié)點。
node()	匹配任何類型的節(jié)點。

實例

在下面的表格中，我們列出了一些路徑表達式，以及這些表達式的結(jié)果：

路徑表達式	結(jié)果
/bookstore/*	選取 bookstore 元素的所有子元素。
//*	選取文檔中的所有元素。
//title[@*]	選取所有帶有屬性的 title 元素。

選取若干路徑

通過在路徑表達式中使用“|”運算符，您可以選取若干個路徑。

實例

在下面的表格中，我們列出了一些路徑表達式，以及這些表達式的結(jié)果：

路徑表達式	結(jié)果
//book/title \| //book/price	選取 book 元素的所有 title 和 price 元素。
//title \| //price	選取文檔中的所有 title 和 price 元素。
/bookstore/book/title \| //price	選取屬于 bookstore 元素的 book 元素的所有 title 元素，以及文檔中所有的 price 元素。

這些就是xpath的語法內(nèi)容

在運用到python抓取時要先轉(zhuǎn)換為xml

Import lxml 　　　　　　#首先要先導(dǎo)入庫

etree.HTML()　　　　#這個就是轉(zhuǎn)換為xml的python的語法，HTML括號內(nèi)填入目標站點的源碼，可以參照另一篇博文，《爬蟲下載百度貼吧圖片》
之后各位就可以抓取指定的內(nèi)容了

上一篇：Djangoauth登陸后頁面跳轉(zhuǎn)至/account/profile，修改跳轉(zhuǎn)至其他頁面

下一篇：螺旋數(shù)字的python實現(xiàn)

學(xué)習交流

索泰發(fā)布一款GTX 1070 Mini迷你版本:小機

索泰發(fā)布一款GTX 1070 Mini迷你版本:小機箱大愛...

熱門圖片

猜你喜歡的新聞

猜你喜歡的關(guān)注

新聞熱點

榮耀總裁趙明烏鎮(zhèn)演講：榮耀首款5G手機V30下月發(fā)布

2019-10-23 09:17:05

搜狐張朝陽：回歸媒體是搜狐重新崛起的關(guān)鍵

2019-10-21 09:20:02

華為輪值董事長郭平：虛擬技術(shù)創(chuàng)造現(xiàn)實價值

2019-10-21 09:00:12

滴滴英文服務(wù)上線兩周年用戶已超200萬

2019-09-26 08:57:12

華為推出全球至快AI訓(xùn)練集群Atlas900

2019-09-25 08:46:36

馬斯克：特斯拉正組建中國技術(shù)團隊

2019-09-25 08:15:43

疑難解答

圖片精選

網(wǎng)友關(guān)注

国产探花免费观看_亚洲丰满少妇自慰呻吟_97日韩有码在线_资源在线日韩欧美_一区二区精品毛片,辰东完美世界有声小说,欢乐颂第一季,yy玄幻小说排行榜完本

python爬蟲xpath的語法

這個是基本的語法（掌握了這些基本都可以抓取到）：

實例

謂語（Predicates）

實例

選取未知節(jié)點

實例

選取若干路徑

實例