正則表達式,又稱正規表示法、常規表示法(英語:Regular Expression,在代碼中常簡寫為regex、regexp或RE),計算機科學的一個概念。正則表達式使用單個字符串來描述、匹配一系列符合某個句法規則的字符串。在很多文本編輯器里,正則表達式通常被用來檢索、替換那些符合某個模式的文本。
注:以下文章原文來自于Dr Charles Severance 的 《Python for Informatics》
目前為止,我們一直在通讀文件,查找模式和抽取字里行間我們感興趣的各種信息。我們一直在使用像split和find的字符串方法,以及列表和字符串的切片功能來抽取行中的部分內容。
像這樣的查找和抽取任務是如此常見,所以Python擁有一個非常強大的庫——正則表達式(regular expressions)來優雅地處理這些任務。我們未早一點介紹正則表達式是因為,雖然它們很強大,但是有點復雜,并且需要一些時間去適應它們的語法。
正式表達式近乎是一個用來查找和分析字符串的小型編程語言。事實上,關于正則表達式可以寫一本完整的書。在這一章,我們將只涉及其基礎。想要獲得正則表達式的更多信息,請參閱:
http://en.wikipedia.org/wiki/Regular_expression
http://docs.python.org/library/re.html
在你使用正則表達式前,你必須將庫文件導入到你的程序。正則表達式最簡單的應用是search()函數,下面的程序將演示search函數的小應用。
import rehand = open('mbox-short.txt')for line in hand:line = line.rstrip()if re.search('From:', line):print(line) 我們打開mbox-short文件,循環讀取每一行,并用正則表達式的search()來查找包含“From:”字符串的行,然后打印輸出這些行。這個程序并未運用正則表達式的真實能力,因為我們只要簡單的使用line.find()也可實現同樣的結果。
當我們在查詢字符串中添加特殊字符,使得我們可以更加精確的控制那些匹配字符串的行,這時候正則表達式的能力就開始顯現。在正則表達式中添加那些特殊字符可以讓我們用非常少的代碼實現復雜的匹配和抽取。
例如,正則表達式中用插入符號^來匹配一行中的開始。我們只要在查詢字符前添加一個插入符,就可將程序修改為只匹配打印以“From:"開始的行,具體代碼如下:
import rehand = open('mbox-short.txt')for line in hand:line = line.rstrip()if re.search('^From:', line)print(line) 現在,我們將只匹配以”From:“開始的行。這個簡單的例子我們可以用字符串庫的startswith()方法同樣實現。這個例子用來告訴我們這樣一個概念,包含特殊字符的正則表達式將給我們更強的控制。
注:原文給的代碼是2.7版,因為我自己使用的是3.4版,所以將print line 修改為 print(line)。



















