Python for Informatics 第11章之正則表達式（四）

2019-11-25 16:49:54

字體：大中小

來源：轉載

供稿：網友

注：以下文章原文來自于Dr Charles Severance 的《Python for Informatics》

11.3 組合查詢和抽取

　　如果我們想以“X-”字符串開頭的行中找到數字，就像下面兩行字符串：

X-DSPAM-Confidence: 0.8475
X-DSPAM-Probability: 0.0000

　　但我們不只是要任意行中的任意浮點數，而是具備上面格式的行中的數字。

　　我們可以創建以下正則表達式來選擇這樣的行：

^X-.*: [0-9.]+

　　這個表達式的含義是以“X-”兩個字符開頭，后面跟了任意個字符“.*"，接著是一個冒號":"和空格" "，在空格之后呢是一個及以上的數字或小數點“[0-9.]+”。大家要注意的是方括號中的"[.]"不是匹配任何字符，而是匹配真正的"."，這與方括號外的"."要予以區分。

　　這是一個非常緊湊的表達式，它將非常匹配我們感興趣的行：

import rehand = open('mobx-short.txt')for line in hand:line = line.rstrip()if re.search('^X-.*: [0-9.]+', line)print(line)

　　當我們運行這個程序，我們可以看到我們想要的數據被完美的過濾顯示。

X-DSPAM-Confidence: 0.8475
X-DSPAM-Probability: 0.0000
X-DSPAM-Confidence: 0.6178
X-DSPAM-Probability: 0.0000

　　但是我們必須使用split解決提取數字的問題。然而當這個問題簡單到能用split解決時，我們可以使用正則表達式的另一特點，一步達到查找和解析功能。

　　圓括號()是正則表達式中的另一特殊字符。當我們添加圓括號至表達式中，在字符串的匹配過程中它們將被忽略，但是當你使用findall()時，圓括號表示你想整個正則表達式被匹配，但是你只抽取位于圓括號內你感興趣的那部分字符串。

　　所以我們對程序修改如下：

import rehand = open('mbox-short.txt')for line in hand:line = line.rstrip()x = re.findall('^X-.*: ([0-9.]+)', line)if len(x) > 0 :print(x)

　　我們在正則表達式中對匹配浮點數字部分添加圓括號，并且用findall()代替search()，返回我們想要的浮點數字部分。這個程序的輸出如下：

['0.8475']
['0.0000']
['0.6178']
['0.0000']
['0.6961']
['0.0000']
..

　　雖然這些在列表中的數字還需要從字符串轉換為浮點數，但是我們應用正則表達式的能力同時查找和抽取了我們感興趣的的信息。

　　下面是使用這個技巧的另一個案例。如果你查看文件，你會發現有許多行是這樣的格式：

Details: http://source.sakaiproject.org/viewsvn/?view=rev&rev=39772

　　如果我們想用同樣的技巧抽取所有修訂號（行末尾的整數），我們可以這樣編寫代碼：

import rehand = open('mbox-short.txt')for line in hand:line = line.rstrip()x = re.findall('^Details:.*rev=([0-9]+)', line)if len(x) > 0 :print(x)

　　我們的正則表達式的是這樣的，以"Details:"開頭，之后可以是任意字符”.*"，然后是"rev="，最后是一個以上的數字。我們希望行是匹配整個正則表達式，但我們只需要圓括號中"[0-9]+"的數字。當我們運行程序時，將得到以下輸出：

['39772']
['39771']
['39770']
['39769']
...

　　記住，"[0-9]+"是貪婪的，它將嘗試抽取任何可能的數字，所以我們得到的每個字符串都有五個數字。正則表達式庫在行的開頭和結尾兩個方向進行擴展，只到它數到一個非數字的字符。

　　我們可以用正則表達式重做本書先前的一個練習。在這個練習中我們對每個郵件的時間感興趣，我們尋找的行的格式如下：

From stephen.marquard@uct.ac.za Sat Jan 5 09:14:16 2008

　　并且我們想抽取每一行中日期中的小時信息。先前我們通過兩次調用split實現。第一次我們將行分離成單詞，然后我們對第五個單詞基于冒號再次分離，拉出我們感興趣的兩個字符。

　　假定要查找的行是良好格式化的，那么只要想到少的代碼就可以實現。但是當你為確保程序中碰到不具備這樣格式而失效，而添加必要的錯誤檢驗（或者一個try/except塊）時，這個代碼將會膨脹到10-15行，并且難以讀懂。

　　我們可以用下面的正則表達式使工作更簡單：

^From .* [0-9][0-9]：

　　這個表達式的含義是以"From "開頭（注意空格），然后跟著任意個字符".*"，接著又是一個空格，然后是兩個數字"[0-9][0-9]"，再接著是一個冒號。我們要找的就是具備這樣格式的行。

　　為了在findall中只抽出表示小時的兩位數字，我們將表達式修改如下：

^From .* ([0-9][0-9])：

　最后這個程序是這樣的：

import rehand = open('mbox-short.txt')for line in hand:line = line.rstrip()x = re.findall('ˆFrom .* ([0-9][0-9]):', line)if len(x) > 0 : print(x)

　　程序運行結果如下：

['09']
['18']
['16']
['15']
...

相關閱讀：

Python for Informatics 第11章正則表達式(一)

Python for Informatics 第11章之正則表達式（二）

關于Python for Informatics 第11章之正則表達式（四）就給大家介紹到這里，希望對大家有所幫助。后續還會持續更新，更多精彩內容敬請關注！

上一篇：python中PIL安裝簡單教程

下一篇：Python for Informatics 第11章之正則表達式（二）

學習交流

索泰發布一款GTX 1070 Mini迷你版本:小機

索泰發布一款GTX 1070 Mini迷你版本:小機箱大愛...

熱門圖片

猜你喜歡的新聞

猜你喜歡的關注

新聞熱點

榮耀總裁趙明烏鎮演講：榮耀首款5G手機V30下月發布

2019-10-23 09:17:05

搜狐張朝陽：回歸媒體是搜狐重新崛起的關鍵

2019-10-21 09:20:02

華為輪值董事長郭平：虛擬技術創造現實價值

2019-10-21 09:00:12

滴滴英文服務上線兩周年用戶已超200萬

2019-09-26 08:57:12

華為推出全球至快AI訓練集群Atlas900

2019-09-25 08:46:36

馬斯克：特斯拉正組建中國技術團隊

2019-09-25 08:15:43

疑難解答

圖片精選

網友關注

国产探花免费观看_亚洲丰满少妇自慰呻吟_97日韩有码在线_资源在线日韩欧美_一区二区精品毛片,辰东完美世界有声小说,欢乐颂第一季,yy玄幻小说排行榜完本

Python for Informatics 第11章之正則表達式（四）