目錄[隱藏] |
Python 自1.5版本起增加了re 模塊,它提供 Perl 風格的正則表達式模式。Python 1.5之前版本則是通過 regex 模塊提供 Emacs 風格的模式。Emacs 風格模式可讀性稍差些,而且功能也不強,因此編寫新代碼時盡量不要再使用 regex 模塊,當然偶爾你還是可能在老代碼里發現其蹤影。
就其本質而言,正則表達式(或 RE)是一種小型的、高度專業化的編程語言,(在Python中)它內嵌在Python中,并通過 re 模塊實現。使用這個小型語言,你可以為想要匹配的相應字符串集指定規則;該字符串集可能包含英文語句、e-mail地址、TeX命令或任何你想搞定的東西。然后你可以問諸如“這個字符串匹配該模式嗎?”或“在這個字符串中是否有部分匹配該模式呢?”。你也可以使用 RE 以各種方式來修改或分割字符串。
正則表達式模式被編譯成一系列的字節碼,然后由用 C 編寫的匹配引擎執行。在高級用法中,也許還要仔細留意引擎是如何執行給定 RE ,如何以特定方式編寫 RE 以令生產的字節碼運行速度更快。本文并不涉及優化,因為那要求你已充分掌握了匹配引擎的內部機制。哈哈
正則表達式語言相對小型和受限(功能有限),因此并非所有字符串處理都能用正則表達式完成。當然也有些任務可以用正則表達式完成,不過最終表達式會變得異常復雜。碰到這些情形時,編寫 Python 代碼進行處理可能反而更好;盡管 Python 代碼比一個精巧的正則表達式要慢些,但它更易理解。
我們將從最簡單的正則表達式學習開始。由于正則表達式常用于字符串操作,那我們就從最常見的任務:字符匹配 下手。
有關正則表達式底層的計算機科學上的詳細解釋(確定性和非確定性有限自動機),你可以查閱編寫編譯器相關的任何教科書。
大多數字母和字符一般都會和自身匹配。例如,正則表達式 test 會和字符串“test”完全匹配。(你也可以使用大小寫不敏感模式,它還能讓這個 RE 匹配“Test”或“TEST”;稍后會有更多解釋。)
這個規則當然會有例外;有些字符比較特殊,它們和自身并不匹配,而是會表明應和一些特殊的東西匹配,或者它們會影響到 RE 其它部分的重復次數。本文很大篇幅專門討論了各種元字符及其作用。
這里有一個元字符的完整列表;其含義會在本指南馀下部分進行討論。
. ^ $ * + ? { [ ] / | ( )我們首先考察的元字符是"[" 和 "]"。它們常用來指定一個字符類別,所謂字符類別就是你想匹配的一個字符集。字符可以單個列出,也可以用“-”號分隔的兩個給定字符來表示一個字符區間。例如,[abc] 將匹配"a", "b", 或 "c"中的任意一個字符;也可以用區間[a-c]來表示同一字符集,和前者效果一致。如果你只想匹配小寫字母,那么 RE 應寫成 [a-z].
元字符在類別里并不起作用。例如,[akm$]將匹配字符"a", "k", "m", 或 "$" 中的任意一個;"$"通常用作元字符,但在字符類別里,其特性被除去,恢復成普通字符。
你可以用補集來匹配不在區間范圍內的字符。其做法是把"^"作為類別的首個字符;其它地方的"^"只會簡單匹配 "^"字符本身。例如,[^5] 將匹配除 "5" 之外的任意字符。
也許最重要的元字符是反斜杠"/"。 做為 Python 中的字符串字母,反斜杠后面可以加不同的字符以表示不同特殊意義。它也可以用于取消所有的元字符,這樣你就可以在模式中匹配它們了。舉個例子,如果你需要匹配字符 "[" 或 "/",你可以在它們之前用反斜杠來取消它們的特殊意義: /[ 或 //。
一些用 "/" 開始的特殊字符所表示的預定義字符集通常是很有用的,象數字集,字母集,或其它非空字符集。下列是可用的預設特殊字符:
/d 匹配任何十進制數;它相當于類 [0-9]。/D 匹配任何非數字字符;它相當于類 [^0-9]。/s 匹配任何空白字符;它相當于類 [ /t/n/r/f/v]。/S 匹配任何非空白字符;它相當于類 [^ /t/n/r/f/v]。/w 匹配任何字母數字字符;它相當于類 [a-zA-Z0-9_]。/W 匹配任何非字母數字字符;它相當于類 [^a-zA-Z0-9_]。
這樣特殊字符都可以包含在一個字符類中。如,[/s,.]字符類將匹配任何空白字符或","或"."。
本節最后一個元字符是 . 。它匹配除了換行字符外的任何字符,在 alternate 模式(re.DOTALL)下它甚至可以匹配換行。"." 通常被用于你想匹配“任何字符”的地方。
正則表達式第一件能做的事是能夠匹配不定長的字符集,而這是其它能作用在字符串上的方法所不能做到的。 不過,如果那是正則表達式唯一的附加功能的話,那么它們也就不那么優秀了。它們的另一個功能就是你可以指定正則表達式的一部分的重復次數。
我們討論的第一個重復功能的元字符是 *。* 并不匹配字母字符 "*";相反,它指定前一個字符可以被匹配零次或更多次,而不是只有一次。
舉個例子,ca*t 將匹配 "ct" (0 個 "a" 字符), "cat" (1 個 "a"), "caaat" (3 個 "a" 字符)等等。RE 引擎有各種來自 C 的整數類型大小的內部限制,以防止它匹配超過2億個 "a" 字符;你也許沒有足夠的內存去建造那么大的字符串,所以將不會累計到那個限制。
象 * 這樣地重復是“貪婪的”;當重復一個 RE 時,匹配引擎會試著重復盡可能多的次數。如果模式的后面部分沒有被匹配,匹配引擎將退回并再次嘗試更小的重復。
一步步的示例可以使它更加清晰。讓我們考慮表達式 a[bcd]*b。它匹配字母 "a",零個或更多個來自類 [bcd]中的字母,最后以 "b" 結尾。現在想一想該 RE 對字符串 "abcbd" 的匹配。
| Step | Matched | Explanation |
| 1 | a | a 匹配模式 |
| 2 | abcbd | 引擎匹配 [bcd]*,并盡其所能匹配到字符串的結尾 |
| 3 | Failure | 引擎嘗試匹配 b,但當前位置已經是字符的最后了,所以失敗 |
| 4 | abcb | 退回,[bcd]*嘗試少匹配一個字符。 |
| 5 | Failure | 再次嘗次b,但在當前最后一位字符是"d"。 |
| 6 | abc | 再次退回,[bcd]*只匹配 "bc"。 |
| 7 | abcb | 再次嘗試 b ,這次當前位上的字符正好是 "b" |
RE 的結尾部分現在可以到達了,它匹配 "abcb"。這證明了匹配引擎一開始會盡其所能進行匹配,如果沒有匹配然后就逐步退回并反復嘗試 RE 剩下來的部分。直到它退回嘗試匹配 [bcd] 到零次為止,如果隨后還是失敗,那么引擎就會認為該字符串根本無法匹配 RE 。
另一個重復元字符是 +,表示匹配一或更多次。請注意 * 和 + 之間的不同;* 匹配零或更多次,所以根本就可以不出現,而 + 則要求至少出現一次。用同一個例子,ca+t 就可以匹配 "cat" (1 個 "a"), "caaat" (3 個 "a"), 但不能匹配 "ct"。
還有更多的限定符。問號 ? 匹配一次或零次;你可以認為它用于標識某事物是可選的。例如:home-?brew 匹配 "homebrew" 或 "home-brew"。
最復雜的重復限定符是 {m,n},其中 m 和 n 是十進制整數。該限定符的意思是至少有 m 個重復,至多到 n 個重復。舉個例子,a/{1,3}b 將匹配 "a/b","a//b" 和 "a///b"。它不能匹配 "ab" 因為沒有斜杠,也不能匹配 "a////b" ,因為有四個。
你可以忽略 m 或 n;因為會為缺失的值假設一個合理的值。忽略 m 會認為下邊界是 0,而忽略 n 的結果將是上邊界為無窮大 -- 實際上是先前我們提到的 2 兆,但這也許同無窮大一樣。
細心的讀者也許注意到其他三個限定符都可以用這樣方式來表示。 {0,} 等同于 *,{1,} 等同于 +,而{0,1}則與 ? 相同。如果可以的話,最好使用 *,+,或?。很簡單因為它們更短也再容易懂。
現在我們已經看了一些簡單的正則表達式,那么我們實際在 Python 中是如何使用它們的呢? re 模塊提供了一個正則表達式引擎的接口,可以讓你將 REs 編譯成對象并用它們來進行匹配。
正則表達式被編譯成 `RegexObject` 實例,可以為不同的操作提供方法,如模式匹配搜索或字符串替換。
#!python>>> import re>>> p = re.compile('ab*')>>> print p<re.RegexObject instance at 80b4150>re.compile() 也接受可選的標志參數,常用來實現不同的特殊功能和語法變更。我們稍后將查看所有可用的設置,但現在只舉一個例子:
#!python>>> p = re.compile('ab*', re.IGNORECASE)RE 被做為一個字符串發送給 re.compile()。REs 被處理成字符串是因為正則表達式不是 Python 語言的核心部分,也沒有為它創建特定的語法。(應用程序根本就不需要 REs,因此沒必要包含它們去使語言說明變得臃腫不堪。)而 re 模塊則只是以一個 C 擴展模塊的形式來被 Python 包含,就象 socket 或 zlib 模塊一樣
將 REs 作為字符串以保證 Python 語言的簡潔,但這樣帶來的一個麻煩就是象下節標題所講的。
在早期規定中,正則表達式用反斜杠字符 ("/") 來表示特殊格式或允許使用特殊字符而不調用它的特殊用法。這就與 Python 在字符串中的那些起相同作用的相同字符產生了沖突。
讓我們舉例說明,你想寫一個 RE 以匹配字符串 "/section",可能是在一個 LATEX 文件查找。為了要在程序代碼中判斷,首先要寫出想要匹配的字符串。接下來你需要在所有反斜杠和元字符前加反斜杠來取消其特殊意義。
| 字符 | 階段 |
| /section | 要匹配的字符串 |
| //section | 為 re.compile 取消反斜杠的特殊意義 |
| "http:////section" | 為字符串取消反斜杠 |
簡單地說,為了匹配一個反斜杠,不得不在 RE 字符串中寫 '////',因為正則表達式中必須是 "http://",而每個反斜杠按 Python 字符串字母表示的常規必須表示成 "http://"。在 REs 中反斜杠的這個重復特性會導致大量重復的反斜杠,而且所生成的字符串也很難懂。
解決的辦法就是為正則表達式使用 Python 的 raw 字符串表示;在字符串前加個 "r" 反斜杠就不會被任何特殊方式處理,所以 r"/n" 就是包含"/" 和 "n" 的兩個字符,而 "/n" 則是一個字符,表示一個換行。正則表達式通常在 Python 代碼中都是用這種 raw 字符串表示。
| 常規字符串 | Raw 字符串 |
| "ab*" | r"ab*" |
| "http:////section" | r"http://section" |
| "http://w+//s+//1" | r"/w+/s+/1" |
一旦你有了已經編譯了的正則表達式的對象,你要用它做什么呢?`RegexObject` 實例有一些方法和屬性。這里只顯示了最重要的幾個,如果要看完整的列表請查閱 Python Library Reference
| 方法/屬性 | 作用 |
| match() | 決定 RE 是否在字符串剛開始的位置匹配 |
| search() | 掃描字符串,找到這個 RE 匹配的位置 |
| findall() | 找到 RE 匹配的所有子串,并把它們作為一個列表返回 |
| finditer() | 找到 RE 匹配的所有子串,并把它們作為一個迭代器返回 |
如果沒有匹配到的話,match() 和 search() 將返回 None。如果成功的話,就會返回一個 `MatchObject` 實例,其中有這次匹配的信息:它是從哪里開始和結束,它所匹配的子串等等。
你可以用采用人機對話并用 re 模塊實驗的方式來學習它。如果你有 Tkinter 的話,你也許可以考慮參考一下 Tools/scripts/redemo.py,一個包含在 Python 發行版里的示范程序。
首先,運行 Python 解釋器,導入 re 模塊并編譯一個 RE:
#!pythonPython 2.2.2 (#1, Feb 10 2003, 12:57:01)>>> import re>>> p = re.compile('[a-z]+')>>> p<_sre.SRE_Pattern object at 80c3c28>現在,你可以試著用 RE 的 [a-z]+ 去匹配不同的字符串。一個空字符串將根本不能匹配,因為 + 的意思是 “一個或更多的重復次數”。 在這種情況下 match() 將返回 None,因為它使解釋器沒有輸出。你可以明確地打印出 match() 的結果來弄清這一點。
#!python>>> p.match("")>>> print p.match("")None現在,讓我們試著用它來匹配一個字符串,如 "tempo"。這時,match() 將返回一個 MatchObject。因此你可以將結果保存在變量里以便后面使用。
#!python>>> m = p.match( 'tempo')>>> print m<_sre.SRE_Match object at 80c4f68>
現在你可以查詢 `MatchObject` 關于匹配字符串的相關信息了。MatchObject 實例也有幾個方法和屬性;最重要的那些如下所示:
| 方法/屬性 | 作用 |
| group() | 返回被 RE 匹配的字符串 |
| start() | 返回匹配開始的位置 |
| end() | 返回匹配結束的位置 |
| span() | 返回一個元組包含匹配 (開始,結束) 的位置 |
試試這些方法不久就會清楚它們的作用了:
#!python>>> m.group()'tempo'>>> m.start(), m.end()(0, 5)>>> m.span()(0, 5)
group() 返回 RE 匹配的子串。start() 和 end() 返回匹配開始和結束時的索引。span() 則用單個元組把開始和結束時的索引一起返回。因為匹配方法檢查到如果 RE 在字符串開始處開始匹配,那么 start() 將總是為零。然而, `RegexObject` 實例的 search 方法掃描下面的字符串的話,在這種情況下,匹配開始的位置就也許不是零了。
#!python>>> print p.match('::: message')None>>> m = p.search('::: message') ; print m<re.MatchObject instance at 80c9650>>>> m.group()'message'>>> m.span()(4, 11)在實際程序中,最常見的作法是將 `MatchObject` 保存在一個變量里,然后檢查它是否為 None,通常如下所示:
#!pythonp = re.compile( ... )m = p.match( 'string goes here' )if m:print 'Match found: ', m.group()else:print 'No match'
兩個 `RegexObject` 方法返回所有匹配模式的子串。findall()返回一個匹配字符串行表:
#!python>>> p = re.compile('/d+')>>> p.findall('12 drummers drumming, 11 pipers piping, 10 lords a-leaping')['12', '11', '10']findall() 在它返回結果時不得不創建一個列表。在 Python 2.2中,也可以用 finditer() 方法。
#!python>>> iterator = p.finditer('12 drummers drumming, 11 ... 10 ...')>>> iterator<callable-iterator object at 0x401833ac>>>> for match in iterator:... print match.span()...(0, 2)(22, 24)(29, 31)你不一定要產生一個 `RegexObject` 對象然后再調用它的方法;re 模塊也提供了頂級函數調用如 match()、search()、sub() 等等。這些函數使用 RE 字符串作為第一個參數,而后面的參數則與相應 `RegexObject` 的方法參數相同,返回則要么是 None 要么就是一個 `MatchObject` 的實例。
#!python>>> print re.match(r'From/s+', 'Fromage amk')None>>> re.match(r'From/s+', 'From amk Thu May 14 19:12:10 1998')<re.MatchObject instance at 80c5978>
Under the hood, 這些函數簡單地產生一個 RegexOject 并在其上調用相應的方法。它們也在緩存里保存編譯后的對象,因此在將來調用用到相同 RE 時就會更快。
你將使用這些模塊級函數,還是先得到一個 `RegexObject` 再調用它的方法呢?如何選擇依賴于怎樣用 RE 更有效率以及你個人編碼風格。如果一個 RE 在代碼中只做用一次的話,那么模塊級函數也許更方便。如果程序包含很多的正則表達式,或在多處復用同一個的話,那么將全部定義放在一起,在一段代碼中提前編譯所有的 REs 更有用。從標準庫中看一個例子,這是從 xmllib.py 文件中提取出來的:
#!pythonref = re.compile( ... )entityref = re.compile( ... )charref = re.compile( ... )starttagopen = re.compile( ... )
我通常更喜歡使用編譯對象,甚至它只用一次,but few people will be as much of a purist about this as I am。
編譯標志讓你可以修改正則表達式的一些運行方式。在 re 模塊中標志可以使用兩個名字,一個是全名如 IGNORECASE,一個是縮寫,一字母形式如 I。(如果你熟悉 Perl 的模式修改,一字母形式使用同樣的字母;例如 re.VERBOSE的縮寫形式是 re.X。)多個標志可以通過按位 OR-ing 它們來指定。如 re.I | re.M 被設置成 I 和 M 標志:
這有個可用標志表,對每個標志后面都有詳細的說明。
| 標志 | 含義 |
| DOTALL, S | 使 . 匹配包括換行在內的所有字符 |
| IGNORECASE, I | 使匹配對大小寫不敏感 |
| LOCALE, L | 做本地化識別(locale-aware)匹配 |
| MULTILINE, M | 多行匹配,影響 ^ 和 $ |
| VERBOSE, X | 能夠使用 REs 的 verbose 狀態,使之被組織得更清晰易懂 |
I
IGNORECASE
使匹配對大小寫不敏感;字符類和字符串匹配字母時忽略大小寫。舉個例子,[A-Z]也可以匹配小寫字母,Spam 可以匹配 "Spam", "spam", 或 "spAM"。這個小寫字母并不考慮當前位置。
L
LOCALE
影響 /w, /W, /b, 和 /B,這取決于當前的本地化設置。
locales 是 C 語言庫中的一項功能,是用來為需要考慮不同語言的編程提供幫助的。舉個例子,如果你正在處理法文文本,你想用 /w+ 來匹配文字,但 /w 只匹配字符類 [A-Za-z];它并不能匹配 "é" 或 "ç"。如果你的系統配置適當且本地化設置為法語,那么內部的 C 函數將告訴程序 "é" 也應該被認為是一個字母。當在編譯正則表達式時使用 LOCALE 標志會得到用這些 C 函數來處理 /w 后的編譯對象;這會更慢,但也會象你希望的那樣可以用 /w+ 來匹配法文文本。
M
MULTILINE
(此時 ^ 和 $ 不會被解釋; 它們將在 4.1 節被介紹.)
使用 "^" 只匹配字符串的開始,而 $ 則只匹配字符串的結尾和直接在換行前(如果有的話)的字符串結尾。當本標志指定后, "^" 匹配字符串的開始和字符串中每行的開始。同樣的, $ 元字符匹配字符串結尾和字符串中每行的結尾(直接在每個換行之前)。
S
DOTALL
使 "." 特殊字符完全匹配任何字符,包括換行;沒有這個標志, "." 匹配除了換行外的任何字符。
X
VERBOSE
該標志通過給予你更靈活的格式以便你將正則表達式寫得更易于理解。當該標志被指定時,在 RE 字符串中的空白符被忽略,除非該空白符在字符類中或在反斜杠之后;這可以讓你更清晰地組織和縮進 RE。它也可以允許你將注釋寫入 RE,這些注釋會被引擎忽略;注釋用 "#"號 來標識,不過該符號不能在字符串或反斜杠之后。
舉個例子,這里有一個使用 re.VERBOSE 的 RE;看看讀它輕松了多少?
#!pythoncharref = re.compile(r"""&[[]] # Start of a numeric entity reference([0-9]+[^0-9] # Decimal form| 0[0-7]+[^0-7] # Octal form| x[0-9a-fA-F]+[^0-9a-fA-F] # Hexadecimal form)""", re.VERBOSE)
沒有 verbose 設置, RE 會看起來象這樣:
#!pythoncharref = re.compile("([0-9]+[^0-9]""|0[0-7]+[^0-7]""|x[0-9a-fA-F]+[^0-9a-fA-F])")在上面的例子里,Python 的字符串自動連接可以用來將 RE 分成更小的部分,但它比用 re.VERBOSE 標志時更難懂
到目前為止,我們只展示了正則表達式的一部分功能。在本節,我們將展示一些新的元字符和如何使用組來檢索被匹配的文本部分。
還有一些我們還沒展示的元字符,其中的大部分將在本節展示。
剩下來要討論的一部分元字符是零寬界定符(zero-width assertions)。它們并不會使引擎在處理字符串時更快;相反,它們根本就沒有對應任何字符,只是簡單的成功或失敗。舉個例子, /b 是一個在單詞邊界定位當前位置的界定符(assertions),這個位置根本就不會被 /b 改變。這意味著零寬界定符(zero-width assertions)將永遠不會被重復,因為如果它們在給定位置匹配一次,那么它們很明顯可以被匹配無數次。
|
可選項,或者 "or" 操作符。如果 A 和 B 是正則表達式,A|B 將匹配任何匹配了 "A" 或 "B" 的字符串。| 的優先級非常低,是為了當你有多字符串要選擇時能適當地運行。Crow|Servo 將匹配"Crow" 或 "Servo", 而不是 "Cro", 一個 "w" 或 一個 "S", 和 "ervo"。
為了匹配字母 "|",可以用 /|,或將其包含在字符類中,如[|]。
^
匹配行首。除非設置 MULTILINE 標志,它只是匹配字符串的開始。在 MULTILINE 模式里,它也可以直接匹配字符串中的每個換行。
例如,如果你只希望匹配在行首單詞 "From",那么 RE 將用 ^From。
#!python>>> print re.search('^From', 'From Here to Eternity')<re.MatchObject instance at 80c1520>>>> print re.search('^From', 'Reciting From Memory')None$
匹配行尾,行尾被定義為要么是字符串尾,要么是一個換行字符后面的任何位置。
#!python>>> print re.search('}$', '{block}')<re.MatchObject instance at 80adfa8>>>> print re.search('}$', '{block} ')None>>> print re.search('}$', '{block}/n')<re.MatchObject instance at 80adfa8>匹配一個 "$",使用 /$ 或將其包含在字符類中,如[$]。
/A
只匹配字符串首。當不在 MULTILINE 模式,/A 和 ^ 實際上是一樣的。然而,在 MULTILINE 模式里它們是不同的;/A 只是匹配字符串首,而 ^ 還可以匹配在換行符之后字符串的任何位置。
/Z
Matches only at the end of the string.
只匹配字符串尾。
/b
單詞邊界。這是個零寬界定符(zero-width assertions)只用以匹配單詞的詞首和詞尾。單詞被定義為一個字母數字序列,因此詞尾就是用空白符或非字母數字符來標示的。
下面的例子只匹配 "class" 整個單詞;而當它被包含在其他單詞中時不匹配。
#!python>>> p = re.compile(r'/bclass/b')>>> print p.search('no class at all')<re.MatchObject instance at 80c8f28>>>> print p.search('the declassified algorithm')None>>> print p.search('one subclass is')None當用這個特殊序列時你應該記住這里有兩個微妙之處。第一個是 Python 字符串和正則表達式之間最糟的沖突。在 Python 字符串里,"/b" 是反斜杠字符,ASCII值是8。如果你沒有使用 raw 字符串時,那么 Python 將會把 "/b" 轉換成一個回退符,你的 RE 將無法象你希望的那樣匹配它了。下面的例子看起來和我們前面的 RE 一樣,但在 RE 字符串前少了一個 "r" 。
#!python>>> p = re.compile('/bclass/b')>>> print p.search('no class at all')None>>> print p.search('/b' + 'class' + '/b')<re.MatchObject instance at 80c3ee0>第二個在字符類中,這個限定符(assertion)不起作用,/b 表示回退符,以便與 Python 字符串兼容。
/B
另一個零寬界定符(zero-width assertions),它正好同 /b 相反,只在當前位置不在單詞邊界時匹配。
你經常需要得到比 RE 是否匹配還要多的信息。正則表達式常常用來分析字符串,編寫一個 RE 匹配感興趣的部分并將其分成幾個小組。舉個例子,一個 RFC-822 的頭部用 ":" 隔成一個頭部名和一個值,這就可以通過編寫一個正則表達式匹配整個頭部,用一組匹配頭部名,另一組匹配頭部值的方式來處理。
組是通過 "(" 和 ")" 元字符來標識的。 "(" 和 ")" 有很多在數學表達式中相同的意思;它們一起把在它們里面的表達式組成一組。舉個例子,你可以用重復限制符,象 *, +, ?, 和 {m,n},來重復組里的內容,比如說(ab)* 將匹配零或更多個重復的 "ab"。
#!python>>> p = re.compile('(ab)*')>>> print p.match('ababababab').span()(0, 10)組用 "(" 和 ")" 來指定,并且得到它們匹配文本的開始和結尾索引;這就可以通過一個參數用 group()、start()、end() 和 span() 來進行檢索。組是從 0 開始計數的。組 0 總是存在;它就是整個 RE,所以 `MatchObject` 的方法都把組 0 作為它們缺省的參數。稍后我們將看到怎樣表達不能得到它們所匹配文本的 span。
#!python>>> p = re.compile('(a)b')>>> m = p.match('ab')>>> m.group()'ab'>>> m.group(0)'ab'小組是從左向右計數的,從1開始。組可以被嵌套。計數的數值可以能過從左到右計算打開的括號數來確定。
#!python>>> p = re.compile('(a(b)c)d')>>> m = p.match('abcd')>>> m.group(0)'abcd'>>> m.group(1)'abc'>>> m.group(2)'b'group() 可以一次輸入多個組號,在這種情況下它將返回一個包含那些組所對應值的元組。
#!python>>> m.group(2,1,2)('b', 'abc', 'b')The groups() 方法返回一個包含所有小組字符串的元組,從 1 到 所含的小組號。
#!python>>> m.groups()('abc', 'b')模式中的逆向引用允許你指定先前捕獲組的內容,該組也必須在字符串當前位置被找到。舉個例子,如果組 1 的內容能夠在當前位置找到的話,/1 就成功否則失敗。記住 Python 字符串也是用反斜杠加數據來允許字符串中包含任意字符的,所以當在 RE 中使用逆向引用時確保使用 raw 字符串。
例如,下面的 RE 在一個字符串中找到成雙的詞。
#!python>>> p = re.compile(r'(/b/w+)/s+/1')>>> p.search('Paris in the the spring').group()'the the'象這樣只是搜索一個字符串的逆向引用并不常見 -- 用這種方式重復數據的文本格式并不多見 -- 但你不久就可以發現它們用在字符串替換上非常有用。
精心設計的 REs 也許會用很多組,既可以捕獲感興趣的子串,又可以分組和結構化 RE 本身。在復雜的 REs 里,追蹤組號變得困難。有兩個功能可以對這個問題有所幫助。它們也都使用正則表達式擴展的通用語法,因此我們來看看第一個。
Perl 5 對標準正則表達式增加了幾個附加功能,Python 的 re 模塊也支持其中的大部分。選擇一個新的單按鍵元字符或一個以 "/" 開始的特殊序列來表示新的功能,而又不會使 Perl 正則表達式與標準正則表達式產生混亂是有難度的。如果你選擇 "&" 做為新的元字符,舉個例子,老的表達式認為 "&" 是一個正常的字符,而不會在使用 /& 或 [&] 時也不會轉義。
Perl 開發人員的解決方法是使用 (?...) 來做為擴展語法。"?" 在括號后面會直接導致一個語法錯誤,因為 "?" 沒有任何字符可以重復,因此它不會產生任何兼容問題。緊隨 "?" 之后的字符指出擴展的用途,因此 (?=foo)
Python 新增了一個擴展語法到 Perl 擴展語法中。如果在問號后的第一個字符是 "P",你就可以知道它是針對 Python 的擴展。目前有兩個這樣的擴展: (?P<name>...) 定義一個命名組,(?P=name) 則是對命名組的逆向引用。如果 Perl 5 的未來版本使用不同的語法增加了相同的功能,那么 re 模塊也將改變以支持新的語法,這是為了兼容性的目的而保持的 Python 專用語法。
現在我們看一下普通的擴展語法,我們回過頭來簡化在復雜 REs 中使用組運行的特性。因為組是從左到右編號的,而且一個復雜的表達式也許會使用許多組,它可以使跟蹤當前組號變得困難,而修改如此復雜的 RE 是十分麻煩的。在開始時插入一個新組,你可以改變它之后的每個組號。
首先,有時你想用一個組去收集正則表達式的一部分,但又對組的內容不感興趣。你可以用一個無捕獲組: (?:...) 來實現這項功能,這樣你可以在括號中發送任何其他正則表達式。
#!python>>> m = re.match("([abc])+", "abc")>>> m.groups()('c',)>>> m = re.match("(?:[abc])+", "abc")>>> m.groups()()除了捕獲匹配組的內容之外,無捕獲組與捕獲組表現完全一樣;你可以在其中放置任何字符,可以用重復元字符如 "*" 來重復它,可以在其他組(無捕獲組與捕獲組)中嵌套它。(?:...) 對于修改已有組尤其有用,因為你可以不用改變所有其他組號的情況下添加一個新組。捕獲組和無捕獲組在搜索效率方面也沒什么不同,沒有哪一個比另一個更快。
其次,更重要和強大的是命名組;與用數字指定組不同的是,它可以用名字來指定。
命令組的語法是 Python 專用擴展之一: (?P<name>...)。名字很明顯是組的名字。除了該組有個名字之外,命名組也同捕獲組是相同的。`MatchObject` 的方法處理捕獲組時接受的要么是表示組號的整數,要么是包含組名的字符串。命名組也可以是數字,所以你可以通過兩種方式來得到一個組的信息:
#!python>>> p = re.compile(r'(?P<word>/b/w+/b)')>>> m = p.search( '(((( Lots of punctuation )))' )>>> m.group('word')'Lots'>>> m.group(1)'Lots'命名組是便于使用的,因為它可以讓你使用容易記住的名字來代替不得不記住的數字。這里有一個來自 imaplib 模塊的 RE 示例:
#!pythonInternalDate = re.compile(r'INTERNALDATE "'r'(?P<day>[ 123][0-9])-(?P<mon>[A-Z][a-z][a-z])-' r'(?P<year>[0-9][0-9][0-9][0-9])'r' (?P<hour>[0-9][0-9]):(?P<min>[0-9][0-9]):(?P<sec>[0-9][0-9])'r' (?P<zonen>[-+])(?P<zoneh>[0-9][0-9])(?P<zonem>[0-9][0-9])'r'"')
很明顯,得到 m.group('zonem') 要比記住得到組 9 要容易得多。
因為逆向引用的語法,象 (...)/1 這樣的表達式所表示的是組號,這時用組名代替組號自然會有差別。還有一個 Python 擴展:(?P=name) ,它可以使叫 name 的組內容再次在當前位置發現。正則表達式為了找到重復的單詞,(/b/w+)/s+/1 也可以被寫成 (?P<word>/b/w+)/s+(?P=word):
#!python>>> p = re.compile(r'(?P<word>/b/w+)/s+(?P=word)')>>> p.search('Paris in the the spring').group()'the the'另一個零寬界定符(zero-width assertion)是前向界定符。前向界定符包括前向肯定界定符和前項否定界定符,所下所示:
(?=...)
前向肯定界定符。如果所含正則表達式,以 ... 表示,在當前位置成功匹配時成功,否則失敗。但一旦所含表達式已經嘗試,匹配引擎根本沒有提高;模式的剩余部分還要嘗試界定符的右邊。
(?!...)
前向否定界定符。與肯定界定符相反;當所含表達式不能在字符串當前位置匹配時成功
通過示范在哪前向可以成功有助于具體實現。考慮一個簡單的模式用于匹配一個文件名,并將其通過 "." 分成基本名和擴展名兩部分。如在 "news.rc" 中,"news" 是基本名,"rc" 是文件的擴展名。
匹配模式非常簡單:
.*[.].*$
注意 "." 需要特殊對待,因為它是一個元字符;我把它放在一個字符類中。另外注意后面的 $; 添加這個是為了確保字符串所有的剩余部分必須被包含在擴展名中。這個正則表達式匹配 "foo.bar"、"autoexec.bat"、 "sendmail.cf" 和 "printers.conf"。
現在,考慮把問題變得復雜點;如果你想匹配的擴展名不是 "bat" 的文件名?一些不正確的嘗試:
.*[.][^b].*$
上面的第一次去除 "bat" 的嘗試是要求擴展名的第一個字符不是 "b"。這是錯誤的,因為該模式也不能匹配 "foo.bar"。
.*[.]([^b]..|.[^a].|..[^t])$
當你試著修補第一個解決方法而要求匹配下列情況之一時表達式更亂了:擴展名的第一個字符不是 "b"; 第二個字符不是 "a";或第三個字符不是 "t"。這樣可以接受 "foo.bar" 而拒絕 "autoexec.bat",但這要求只能是三個字符的擴展名而不接受兩個字符的擴展名如 "sendmail.cf"。我們將在努力修補它時再次把該模式變得復雜。
.*[.]([^b].?.?|.[^a]?.?|..?[^t]?)$
在第三次嘗試中,第二和第三個字母都變成可選,為的是允許匹配比三個字符更短的擴展名,如 "sendmail.cf"。
該模式現在變得非常復雜,這使它很難讀懂。更糟的是,如果問題變化了,你想擴展名不是 "bat" 和 "exe",該模式甚至會變得更復雜和混亂。
前向否定把所有這些裁剪成:
.*[.](?!bat$).*$
前向的意思:如果表達式 bat 在這里沒有匹配,嘗試模式的其余部分;如果 bat$ 匹配,整個模式將失敗。后面的 $ 被要求是為了確保象 "sample.batch" 這樣擴展名以 "bat" 開頭的會被允許。
將另一個文件擴展名排除在外現在也容易;簡單地將其做為可選項放在界定符中。下面的這個模式將以 "bat" 或 "exe" 結尾的文件名排除在外。
.*[.](?!bat$|exe$).*$
到目前為止,我們簡單地搜索了一個靜態字符串。正則表達式通常也用不同的方式,通過下面的 `RegexObject` 方法,來修改字符串。
| 方法/屬性 | 作用 |
| split() | 將字符串在 RE 匹配的地方分片并生成一個列表, |
| sub() | 找到 RE 匹配的所有子串,并將其用一個不同的字符串替換 |
| subn() | 與 sub() 相同,但返回新的字符串和替換次數 |
`RegexObject` 的 split() 方法在 RE 匹配的地方將字符串分片,將返回列表。它同字符串的 split() 方法相似但提供更多的定界符;split()只支持空白符和固定字符串。就象你預料的那樣,也有一個模塊級的 re.split() 函數。
split(string [, maxsplit = 0])
通過正則表達式將字符串分片。如果捕獲括號在 RE 中使用,那么它們的內容也會作為結果列表的一部分返回。如果 maxsplit 非零,那么最多只能分出 maxsplit 個分片。
你可以通過設置 maxsplit 值來限制分片數。當 maxsplit 非零時,最多只能有 maxsplit 個分片,字符串的其余部分被做為列表的最后部分返回。在下面的例子中,定界符可以是非數字字母字符的任意序列。
#!python>>> p = re.compile(r'/W+')>>> p.split('This is a test, short and sweet, of split().')['This', 'is', 'a', 'test', 'short', 'and', 'sweet', 'of', 'split', '']>>> p.split('This is a test, short and sweet, of split().', 3)['This', 'is', 'a', 'test, short and sweet, of split().']有時,你不僅對定界符之間的文本感興趣,也需要知道定界符是什么。如果捕獲括號在 RE 中使用,那么它們的值也會當作列表的一部分返回。比較下面的調用:
#!python>>> p = re.compile(r'/W+')>>> p2 = re.compile(r'(/W+)')>>> p.split('This... is a test.')['This', 'is', 'a', 'test', '']>>> p2.split('This... is a test.')['This', '... ', 'is', ' ', 'a', ' ', 'test', '.', '']模塊級函數 re.split() 將 RE 作為第一個參數,其他一樣。
#!python>>> re.split('[/W]+', 'Words, words, words.')['Words', 'words', 'words', '']>>> re.split('([/W]+)', 'Words, words, words.')['Words', ', ', 'words', ', ', 'words', '.', '']>>> re.split('[/W]+', 'Words, words, words.', 1)['Words', 'words, words.']其他常見的用途就是找到所有模式匹配的字符串并用不同的字符串來替換它們。sub() 方法提供一個替換值,可以是字符串或一個函數,和一個要被處理的字符串。
sub(replacement, string[, count = 0])
返回的字符串是在字符串中用 RE 最左邊不重復的匹配來替換。如果模式沒有發現,字符將被沒有改變地返回。
可選參數 count 是模式匹配后替換的最大次數;count 必須是非負整數。缺省值是 0 表示替換所有的匹配。
這里有個使用 sub() 方法的簡單例子。它用單詞 "colour" 替換顏色名。
#!python>>> p = re.compile( '(blue|white|red)')>>> p.sub( 'colour', 'blue socks and red shoes')'colour socks and colour shoes'>>> p.sub( 'colour', 'blue socks and red shoes', count=1)'colour socks and red shoes'
subn() 方法作用一樣,但返回的是包含新字符串和替換執行次數的兩元組。
#!python>>> p = re.compile( '(blue|white|red)')>>> p.subn( 'colour', 'blue socks and red shoes')('colour socks and colour shoes', 2)>>> p.subn( 'colour', 'no colours at all')('no colours at all', 0)空匹配只有在它們沒有緊挨著前一個匹配時才會被替換掉。
#!python>>> p = re.compile('x*')>>> p.sub('-', 'abxd')'-a-b-d-'如果替換的是一個字符串,任何在其中的反斜杠都會被處理。"/n" 將會被轉換成一個換行符,"/r"轉換成回車等等。未知的轉義如 "/j" 則保持原樣。逆向引用,如 "/6",被 RE 中相應的組匹配而被子串替換。這使你可以在替換后的字符串中插入原始文本的一部分。
這個例子匹配被 "{" 和 "}" 括起來的單詞 "section",并將 "section" 替換成 "subsection"。
#!python>>> p = re.compile('section{ ( [^}]* ) }', re.VERBOSE)>>> p.sub(r'subsection{/1}','section{First} section{second}')'subsection{First} subsection{second}'還可以指定用 (?P<name>...) 語法定義的命名組。"/g<name>" 將通過組名 "name" 用子串來匹配,并且 "/g<number>" 使用相應的組號。所以 "/g<2>" 等于 "/2",但能在替換字符串里含義不清,如 "/g<2>0"。("/20" 被解釋成對組 20 的引用,而不是對后面跟著一個字母 "0" 的組 2 的引用。)
#!python>>> p = re.compile('section{ (?P<name> [^}]* ) }', re.VERBOSE)>>> p.sub(r'subsection{/1}','section{First}')'subsection{First}'>>> p.sub(r'subsection{/g<1>}','section{First}')'subsection{First}'>>> p.sub(r'subsection{/g<name>}','section{First}')'subsection{First}'替換也可以是一個甚至給你更多控制的函數。如果替換是個函數,該函數將會被模式中每一個不重復的匹配所調用。在每個調用時,函數被作為 `MatchObject` 的匹配函屬,并可以使用這個信息去計算預期的字符串并返回它。
在下面的例子里,替換函數將十進制翻譯成十六進制:
#!python>>> def hexrepl( match ):... "Return the hex string for a decimal number"... value = int( match.group() )... return hex(value)...>>> p = re.compile(r'/d+')>>> p.sub(hexrepl, 'Call 65490 for printing, 49152 for user code.')'Call 0xffd2 for printing, 0xc000 for user code.'
當使用模塊級的 re.sub() 函數時,模式作為第一個參數。模式也許是一個字符串或一個 `RegexObject`;如果你需要指定正則表達式標志,你必須要么使用 `RegexObject` 做第一個參數,或用使用模式內嵌修正器,如 sub("(?i)b+", "x", "bbbb BBBB") returns 'x x'。
正則表達式對一些應用程序來說是一個強大的工具,但在有些時候它并不直觀而且有時它們不按你期望的運行。本節將指出一些最容易犯的常見錯誤。
有時使用 re 模塊是個錯誤。如果你匹配一個固定的字符串或單個的字符類,并且你沒有使用 re 的任何象 IGNORECASE 標志的功能,那么就沒有必要使用正則表達式了。字符串有一些方法是對固定字符串進行操作的,它們通常快很多,因為都是一個個經過優化的C 小循環,用以代替大的、更具通用性的正則表達式引擎。
舉個用一個固定字符串替換另一個的例子;如,你可以把 "deed" 替換成 "word"。re.sub() seems like the function to use for this, but consider the replace() method. 注意 replace() 也可以在單詞里面進行替換,可以把 "swordfish" 變成 "sdeedfish",不過 RE 也是可以做到的。(為了避免替換單詞的一部分,模式將寫成 /bword/b,這是為了要求 "word" 兩邊有一個單詞邊界。這是個超出替換能力的工作)。
另一個常見任務是從一個字符串中刪除單個字符或用另一個字符來替代它。你也許可以用象 re.sub('/n',' ',S) 這樣來實現,但 translate() 能夠實現這兩個任務,而且比任何正則表達式操作起來更快。
總之,在使用 re 模塊之前,先考慮一下你的問題是否可以用更快、更簡單的字符串方法來解決。
match() 函數只檢查 RE 是否在字符串開始處匹配,而 search() 則是掃描整個字符串。記住這一區別是重要的。記住,match() 只報告一次成功的匹配,它將從 0 處開始;如果匹配不是從 0 開始的,match() 將不會報告它。
#!python>>> print re.match('super', 'superstition').span()(0, 5)>>> print re.match('super', 'insuperable')None另一方面,search() 將掃描整個字符串,并報告它找到的第一個匹配。
#!python>>> print re.search('super', 'superstition').span()(0, 5)>>> print re.search('super', 'insuperable').span()(2, 7)有時你可能傾向于使用 re.match(),只在RE的前面部分添加 .* 。請盡量不要這么做,最好采用 re.search() 代替之。正則表達式編譯器會對 REs 做一些分析以便可以在查找匹配時提高處理速度。一個那樣的分析機會指出匹配的第一個字符是什么;舉個例子,模式 Crow 必須從 "C" 開始匹配。分析機可以讓引擎快速掃描字符串以找到開始字符,并只在 "C" 被發現后才開始全部匹配。
添加 .* 會使這個優化失敗,這就要掃描到字符串尾部,然后回溯以找到 RE 剩余部分的匹配。使用 re.search() 代替。
當重復一個正則表達式時,如用 a*,操作結果是盡可能多地匹配模式。當你試著匹配一對對稱的定界符,如 HTML 標志中的尖括號時這個事實經常困擾你。匹配單個 HTML 標志的模式不能正常工作,因為 .* 的本質是“貪婪”的
#!python>>> s = '<html><head><title>Title</title>'>>> len(s)32>>> print re.match('<.*>', s).span()(0, 32)>>> print re.match('<.*>', s).group()<html><head><title>Title</title>RE 匹配 在 "<html>" 中的 "<",.* 消耗掉子符串的剩余部分。在 RE 中保持更多的左,雖然 > 不能匹配在字符串結尾,因此正則表達式必須一個字符一個字符地回溯,直到它找到 > 的匹配。最終的匹配從 "<html" 中的 "<" 到 "</title>" 中的 ">",這并不是你所想要的結果。
在這種情況下,解決方案是使用不貪婪的限定符 *?、+?、?? 或 {m,n}?,盡可能匹配小的文本。在上面的例子里, ">" 在第一個 "<" 之后被立即嘗試,當它失敗時,引擎一次增加一個字符,并在每步重試 ">"。這個處理將得到正確的結果:
#!python>>> print re.match('<.*?>', s).group()<html>注意用正則表達式分析 HTML 或 XML 是痛苦的。變化混亂的模式將處理常見情況,但 HTML 和 XML 則是明顯會打破正則表達式的特殊情況;當你編寫一個正則表達式去處理所有可能的情況時,模式將變得非常復雜。象這樣的任務用 HTML 或 XML 解析器。
現在你可能注意到正則表達式的表示是十分緊湊,但它們非常不好讀。中度復雜的 REs 可以變成反斜杠、圓括號和元字符的長長集合,以致于使它們很難讀懂。
在這些 REs 中,當編譯正則表達式時指定 re.VERBOSE 標志是有幫助的,因為它允許你可以編輯正則表達式的格式使之更清楚。
re.VERBOSE 標志有這么幾個作用。在正則表達式中不在字符類中的空白符被忽略。這就意味著象 dog | cat 這樣的表達式和可讀性差的 dog|cat 相同,但 [a b] 將匹配字符 "a"、"b" 或 空格。另外,你也可以把注釋放到 RE 中;注釋是從 "#" 到下一行。當使用三引號字符串時,可以使 REs 格式更加干凈:
#!pythonpat = re.compile(r"""/s* # Skip leading whitespace(?P<header>[^:]+) # Header name/s* : # Whitespace, and a colon(?P<value>.*?) # The header's value -- *? used to# lose the following trailing whitespace/s*$ # Trailing whitespace to end-of-line""", re.VERBOSE)
這個要難讀得多:
#!pythonpat = re.compile(r"/s*(?P<header>[^:]+)/s*:(?P<value>.*?)/s*$")
正則表達式是一個復雜的主題。本文能否有助于你理解呢?那些部分是否不清晰,或在這兒沒有找到你所遇到的問題?如果是那樣的話,請將建議發給作者以便改進。
描述正則表達式最全面的書非Jeffrey Friedl 寫的《精通正則表達式》莫屬,該書由O'Reilly 出版。可惜該書只專注于 Perl 和 Java 風格的正則表達式,不含任何 Python 材料,所以不足以用作Python編程時的參考。(第一版包含有 Python 現已過時的 regex 模塊,自然用處不大)。
《精通正則表達式》第三版已經有部分正則表達式使用python說明,另外PHP風格的更是獨立一個章節說明。--why
新聞熱點
疑難解答
圖片精選