Python正則表達(dá)式完全指南

2019-11-25 16:09:04

字體：大中小

供稿：網(wǎng)友

正則表達(dá)式處理文本有如疾風(fēng)掃秋葉，絕大部分編程語(yǔ)言都內(nèi)置支持正則表達(dá)式，它應(yīng)用在諸如表單驗(yàn)證、文本提取、替換等場(chǎng)景。爬蟲系統(tǒng)更是離不開(kāi)正則表達(dá)式，用好正則表達(dá)式往往能收到事半功倍的效果。

介紹正則表達(dá)式前，先來(lái)看一個(gè)問(wèn)題，下面這段文本來(lái)自豆瓣的某個(gè)網(wǎng)頁(yè)鏈接，我對(duì)內(nèi)容進(jìn)行了縮減。問(wèn)：如何提取文本中所有郵箱地址呢？

html = """  <style>   .qrcode-app{    display: block;    background: url(/pics/qrcode_app4@2x.png) no-repeat;   }  </style>  <div class="reply-doc content">   <p class="">34613453@qq.com，謝謝了</p>   <p class="">30604259@qq.com麻煩樓主</p>  </div>  <p class="">490010464@163.com<br/>謝謝</p>  """

如果你還沒(méi)接觸過(guò)正則表達(dá)式，我想對(duì)此會(huì)是一籌莫展，不用正則，似乎想不到一種更好的方式來(lái)處理，不過(guò)，我們暫且放下這個(gè)問(wèn)題，待學(xué)習(xí)完正則表達(dá)式之后再來(lái)考慮如何解決。

字符串的表現(xiàn)形式

Python 字符串有幾種表現(xiàn)形式，以u(píng)開(kāi)頭的字符串稱為Unicode字符串，它不在本文討論范圍內(nèi)，此外，你應(yīng)該還看到過(guò)這兩種寫法：

>>> foo = "hello">>> bar = r"hello"

前者是常規(guī)字符串，后者 r 開(kāi)頭的是原始字符串，兩者有什么區(qū)別？因?yàn)樵谏厦娴睦又校鼈兌际怯善胀ㄎ谋咀址M成的串，在這里沒(méi)什么區(qū)別，下面可以證明

>>> foo is barTrue>>> foo == barTrue

但是，如果字符串中包括有特殊字符，會(huì)是什么情況呢？再來(lái)看一個(gè)例子：

>>> foo = "/n">>> bar = r"/n">>> foo, len(foo)('/n', 1)>>> bar, len(bar)('//n', 2)>>> foo == barFalse>>>

"/n" 是一個(gè)轉(zhuǎn)義字符，它在 ASCII 中表示換行符。而 r"/n" 是一個(gè)原始字符串，原始字符串不對(duì)特殊字符進(jìn)行轉(zhuǎn)義，它就是你看到的字面意思，由 "/" 和 "n" 兩個(gè)字符組成的字符串。

定義原始字符串可以用小寫r或者大寫R開(kāi)頭，比如 r"/b" 或者 R"/b" 都是允許的。在 Python 中，正則表達(dá)式一般用原始字符串的形式來(lái)定義，為什么呢？

舉例來(lái)說(shuō)，對(duì)于字符 "/b" 來(lái)說(shuō)，它在 ASCII 中是有特殊意義的，表示退格鍵，而在正則表達(dá)式中，它是一個(gè)特殊的元字符，用于匹配一個(gè)單詞的邊界，為了能讓正則編譯器正確地表達(dá)它的意義就需要用原始字符串，當(dāng)然也可以使用反斜杠 "/" 對(duì)常規(guī)定義的字符串進(jìn)行轉(zhuǎn)義

>>> foo = "http://b">>> bar = r"/b">>> foo == barTrue

正則基本介紹

正則表達(dá)式由普通文本字符和特殊字符（元字符）兩種字符組成。元字符在正則表達(dá)式中具有特殊意義，它讓正則表達(dá)式具有更豐富的表達(dá)能力。例如，正則表達(dá)式 r"a.d"中，字符 'a' 和 'd' 是普通字符，'.' 是元字符，. 可以指代任意字符，它能匹配 'a1d'、'a2d'、'acd' ，它的匹配流程是：

Python 內(nèi)置模塊 re 是專門用于處理正則表達(dá)式的模塊。

>>> rex = r"a.d" # 正則表達(dá)式文本>>> original_str = "and" # 原始文本>>> pattern = re.compile(rex) # 正則表達(dá)式對(duì)象>>> m = pattern.match(original_str) # 匹配對(duì)象>>> m <_sre.SRE_Match object at 0x101c85b28># 等價(jià)于>>> re.match(r"a.d", "and")<_sre.SRE_Match object at 0x10a15dcc8>

如果原文本字符串與正則表達(dá)式匹配，那么就會(huì)返回一個(gè) Match 對(duì)象，當(dāng)不匹配時(shí)，match 方法返回的 None，通過(guò)判斷m是否為None可進(jìn)行表單驗(yàn)證。

接下來(lái)，我們需要學(xué)習(xí)更多元字符。

基本元字符

.：匹配除換行符以外的任意一個(gè)字符，例如："a.c" 可以完全匹配 "abc"，也可以匹配 "abcef" 中的 "abc"
/：轉(zhuǎn)義字符，使特殊字符具有本來(lái)的意義，例如： 1/.2 可以匹配 1.2
[...]：匹配方括號(hào)中的任意一個(gè)字符，例如：a[bcd]e 可以匹配 abe、ace、ade，它還支持范圍操作，比如：a到z可表示為 "a-z"，0到9可表示為 "0-9"，注意，在 "[]" 中的特殊字符不再有特殊意義，就是它字面的意義，例如：[.*]就是匹配 . 或者 *
[^...]，字符集取反，表示只要不是括號(hào)中出現(xiàn)的字符都可以匹配，例如：a[^bcd]e 可匹配 aee、afe等

>>> re.match(r"a.c", "abc").group()'abc'>>> re.match(r"a.c", "abcef").group()'abc'>>> re.match(r"1/.2", "1.2").group()'1.2'>>> re.match(r"a[0-9]b", "a2b").group()'a2b'>>> re.match(r"a[0-9]b", "a5b11").group()'a5b'>>> re.match(r"a[.*?]b", "a.b").group()'a.b'>>> re.match(r"abc[^/w]", "abc!123").group()'abc!

group 方法返回原字符串(abcef)中與正則表達(dá)式相匹配的那部分子字符串(abc)，提前是要匹配成功 match 方法才會(huì)返回 Match 對(duì)象，進(jìn)而才有g(shù)roup方法。

預(yù)設(shè)元字符

/w 匹配任意一個(gè)單詞字符，包括數(shù)字和下劃線，它等價(jià)于 [A-Za-z0-9_]，例如 a/wc 可以匹配 abc、acc
/W 匹配任意一個(gè)非單詞字符，與 /w 操作相反，它等價(jià)于 [^A-Za-z0-9_]，例如： a/Wc 可匹配 a!c
/s 匹配任意一個(gè)空白字符，空格、回車等都是空白字符，例如：a/sc 可以配 a/nc，這里的 /n表示回車
/S 匹配任意一個(gè)非空白字符
/d 匹配任意一個(gè)數(shù)字，它等價(jià)于[0-9]，例如：a/dc 可匹配 a1c、a2c ...
/D 匹配任意一個(gè)非數(shù)字

邊界匹配

邊界匹配相關(guān)的符號(hào)專門用于修飾字符。

^ 匹配字符的開(kāi)頭，在字符串的前面，例如：^abc 表示匹配 a開(kāi)頭，后面緊隨bc的字符串，它可以匹配 abc$ 匹配字符的結(jié)尾，在字符串的末尾位置，例如： hello$>>> re.match(r"^abc","abc").group()'abc'>>> re.match(r"^abc$","abc").group()'abc'

重復(fù)匹配

前面的元字符都是針對(duì)單個(gè)字符來(lái)匹配的，如果希望匹配的字符重復(fù)出現(xiàn)，比如匹配身份證號(hào)碼，長(zhǎng)度18位，那么就需要用到重復(fù)匹配的元字符

* 重復(fù)匹配零次或者更多次
? 重復(fù)匹配零次或者一次
+ 重復(fù)匹配1次或者多次
{n} 重復(fù)匹配n次
{n,} 重復(fù)匹配至少n次
{n, m} 重復(fù)匹配n到m次

# 簡(jiǎn)單匹配身份證號(hào)碼，前面17位是數(shù)字，最后一位可以是數(shù)字或者字母X>>> re.match(r"/d{17}[/dX]", "42350119900101153X").group()'42350119900101153X'# 匹配5到12的QQ號(hào)碼>>> re.match(r"/d{5,12}$", "4235011990").group()'4235011990'

邏輯分支

匹配一個(gè)固定電話號(hào)碼，不同地區(qū)規(guī)則不一樣，有的地方區(qū)號(hào)是3位，電話是8位，有的地方區(qū)號(hào)是4位，電話為7位，區(qū)號(hào)與號(hào)碼之間用 - 隔開(kāi)，如果應(yīng)對(duì)這樣的需求呢？這時(shí)你需要用到邏輯分支條件字符 |，它把表達(dá)式分為左右兩部分，先嘗試匹配左邊部分，如果匹配成功就不再匹配后面部分了，這是邏輯 "或" 的關(guān)系

# abc|cde 可以匹配abc 或者 cde，但優(yōu)先匹配abc>>> re.match(r"aa(abc|cde)","aaabccde").group()'aaabc'0/d{2}-/d{8}|0/d{3}-/d{7} 表達(dá)式以0開(kāi)頭，既可以匹配3位區(qū)號(hào)8位號(hào)碼，也可以匹配4位區(qū)號(hào)7位號(hào)碼>>> re.match(r"0/d{2}-/d{8}|0/d{3}-/d{7}", "0755-4348767").group()'0755-4348767'>>> re.match(r"0/d{2}-/d{8}|0/d{3}-/d{7}", "010-34827637").group()'010-34827637'

分組

前面介紹的匹配規(guī)則都是針對(duì)單個(gè)字符而言的，如果想要重復(fù)匹配多個(gè)字符怎么辦，答案是，用子表達(dá)式（也叫分組）來(lái)表示，分組用小括號(hào)"()"表示，例如 (abc){2} 表示匹配abc兩次，匹配一個(gè)IP地址時(shí)，可以使用 (/d{1,3}/.){3}/d{1,3}，因?yàn)镮P是由4組數(shù)組3個(gè)點(diǎn)組成的，所有，前面3組數(shù)字和3個(gè)點(diǎn)可以作為一個(gè)分組重復(fù)3次，最后一部分是一個(gè)1到3個(gè)數(shù)字組成的字符串。如：192.168.0.1。

關(guān)于分組，group 方法可用于提取匹配的字符串分組，默認(rèn)它會(huì)把整個(gè)表達(dá)式的匹配結(jié)果當(dāng)做第0個(gè)分組，就是不帶參數(shù)的 group() 或者是 group(0)，第一組括號(hào)中的分組用group(1)獲取，以此類推

>>> m = re.match(r"(/d+)(/w+)", "123abc")＃分組０，匹配整個(gè)正則表達(dá)式>>> m.group()'123abc'#等價(jià)>>> m.group(0)'123abc'# 分組1，匹配第一對(duì)括號(hào)>>> m.group(1)'123'# 分組2，匹配第二對(duì)括號(hào)>>> m.group(2)'abc'>>>

通過(guò)分組，我們可以從字符串中提取出想要的信息。另外，分組還可以通過(guò)指定名字的方式獲取。

# 第一個(gè)分組的名字是number# 第二個(gè)分組的名字是char>>> m = re.match(r"(?P<number>/d+)(?P<char>/w+)", "123abc")>>> m.group("number")'123'# 等價(jià)>>> m.group(1)'123'

貪婪與非貪婪

默認(rèn)情況下，正則表達(dá)式重復(fù)匹配時(shí)，在使整個(gè)表達(dá)式能得到匹配的前提下盡可能匹配多的字符，我們稱之為貪婪模式，是一種貪得無(wú)厭的模式。例如： r"a.*b" 表示匹配 a 開(kāi)頭 b 結(jié)尾，中間可以是任意多個(gè)字符的字符串，如果用它來(lái)匹配 aaabcb，那么它會(huì)匹配整個(gè)字符串。

>>> re.match(r"a.*b", "aaabcb").group()'aaabcb'

有時(shí)，我們希望盡可能少的匹配，怎么辦？只需要在量詞后面加一個(gè)問(wèn)號(hào)" ？"，在保證匹配的情況下盡可能少的匹配，比如剛才的例子，我們只希望匹配 aaab，那么只需要修改正則表達(dá)式為 r"a.*?b"

>>> re.match(r"a.*?b", "aaabcb").group()'aaab'>>>

非貪婪模式在爬蟲應(yīng)用中使用非常頻繁。比如之前在公眾號(hào)「Python之禪」曾寫過(guò)一篇爬取網(wǎng)站并將其轉(zhuǎn)換為PDF文件的場(chǎng)景，在網(wǎng)頁(yè)上涉及img標(biāo)簽元素是相對(duì)路徑的情況，我們需要把它替換成絕對(duì)路徑

>>> html = '<img src="/images/category.png"><img src="/images/js_framework.png">'

# 非貪婪模式就匹配的兩個(gè)img標(biāo)簽# 你可以改成貪婪模式看看可以匹配幾個(gè)>>> rex = r'<img.*?src="(.*?)">'>>> re.findall(rex, html)['/images/category.png', '/images/js_framework.png']>>>>>> def fun(match):...  img_tag = match.group()...  src = match.group(1)...  full_src = "http://foofish.net" + src...  new_img_tag = img_tag.replace(src, full_src)...  return new_img_tag...>>> re.sub(rex, fun, html)<img src="http://foofish.net/images/category.png"><img src="http://foofish.net/images/js_framework.png">

sub 函數(shù)可以接受一個(gè)函數(shù)作為替換目標(biāo)對(duì)象，函數(shù)返回值用來(lái)替換正則表達(dá)式匹配的部分，在這里，我把整個(gè)img標(biāo)簽定義為一個(gè)正則表達(dá)式 r'<img.*?src="(.*?)">'，group() 返回的值是 <img src="/images/category.png">，而 group(1) 的返回值是 /images/category.png，最后，我用 replace 方法把相對(duì)路徑替換成絕對(duì)路徑。

到此，你應(yīng)該對(duì)正則表達(dá)式有了初步的了解，現(xiàn)在我想你應(yīng)該能解決文章開(kāi)篇提的問(wèn)題了。

正則表達(dá)式的基本介紹也到這里告一段落，雖然代碼示例中用了re模塊中的很多方法，但我還沒(méi)正式介紹該模塊，考慮到文章篇幅，我把這部分放在下篇，下篇將對(duì)re的常用方法進(jìn)行介紹。

以上所述是小編給大家介紹的Python正則表達(dá)式完全指南，希望對(duì)大家有所幫助，如果大家有任何疑問(wèn)請(qǐng)給我留言，小編會(huì)及時(shí)回復(fù)大家的。在此也非常感謝大家對(duì)武林網(wǎng)網(wǎng)站的支持！

上一篇：python爬蟲入門教程--利用requests構(gòu)建知乎API（三）

下一篇：Tensorflow簡(jiǎn)單驗(yàn)證碼識(shí)別應(yīng)用