正則表達式教程之前后查找lookaround詳解

2020-03-16 20:55:23

字體：大中小

來源：轉載

供稿：網友

本文實例講述了正則表達式教程之前后查找lookaround。分享給大家供大家參考，具體如下：

注：在所有例子中正則表達式匹配結果包含在源文本中的【和】之間，有的例子會使用Java來實現，如果是java本身正則表達式的用法，會在相應的地方說明。所有java例子都在JDK1.6.0_13下測試通過。

一、問題引入

在HTML頁面中，匹配出一對標簽之間的文本，如匹配出頁面的標簽，即<title>與</title>之間的文本：

文本：<head><TITLE>welcome to my page</title></head>

正則表達式：<[Tt][Ii][Tt][Ll][Ee]>.*?</ [Tt][Ii][Tt][Ll][Ee]>

結果：<head>【<TITLE>welcome to my page</title>】</head>

分析：<[Tt][Ii][Tt][Ll][Ee]>表示不區分大小寫，這個模式匹配到了title標簽以及它們之間的文本，但是并不完美，因為我們只想要title標簽之間的文本，而不包括標簽本身。解決這個問題我們就需要用到前后查找（lookaround）。

二、向前查找

向前查找指定了一個必須匹配但不在結果中返回的模式。向前查找實際上就是一個子表達式，它以?=開頭，需要匹配的文本跟在=的后面。

看一個匹配出一個URL地址中協議部分的例子：

文本：http://blog.csdn.net/mhmyqn

正則表達式：.+(?=:)

結果：【http】://blog.csdn.net/mhmyqn

分析：URL地址中協議部分是在:之前的部分，模式.+匹配任意文本，子表達式(?=:)匹配:，但是被匹配到的:并沒有出現在結果中。我們使用?=向正則表達式引擎表明，只要找到:就行了，但不包括在最終的返回結果里。這里如果不使用向前匹配(?=:)，而是直接使用(:)，那么匹配結果就會是http:了，它包括了:，并不是我們想要的。

注意：前后查找中的前、后是指模式與被查找文本的相對位置而言的，左為前，右為后。即向前查找為：xxx(?=xxx)，而向后查找為(?<=xxx)xxx，向后查找在接下來會介紹到。

三、向后查找

向后查找操作符是?<=。但是并不是所有的正則表達式實現都支持向后查找，JavaScript就不支持，java語言支持向后查找。

比如要查找文本當中的價格（以$開頭，后面跟數字），結果不包含貨幣符號：

文本：category1:$136.25,category2:$28,category3:$88.60

正則表達式：(?<=/$)/d+(/./d+)?

結果：category1:$【136.25】,category2:$【28】,category3:$【88.60】

分析：(?<=/$)模式匹配$，/d+(/./d+)?模式匹配整數或小數。從結果可以看出，結果不沒有包括貨幣符號，只匹配出了價格。如果不使用向后查找，情況會是什么樣呢？使用模式$/d+(/./d+)?，這樣會把$包含在結果中。使用模式/d+(/./d+)?，又會把categery1(23)中的數字也匹配出來，都不是我們想要的。

注意：向前查找模式的長度是可變的，它們可以包含.、*、+之類的元字符；而向后查找模式只能是固定長度，不能包含.、*、+之類的元字符。

四、把向前查找和向后查找結合起來

把向前查找和向后查找結合起來使用，即可解決前面HTML標簽之間的文本的問題：

文本：<head><TITLE>welcome to my page</title></head>

正則表達式：(?<=<[Tt][Ii][Tt][Ll][Ee]>).*?(?=</ [Tt][Ii][Tt][Ll][Ee]>)

結果：<head><TITLE>【welcome to my page】</title></head>

分析：從結果可以看出，問題完美的解決了。(?<=<[Tt][Ii][Tt][Ll][Ee]>)是一個向后操作，它匹配<title>但不消費它，(?=</[Tt][Ii][Tt][Ll][Ee]>)是一個向前操作，它匹配</title>但不消費它。最終返回的匹配結果只包含了標簽之間的文本了。

五、對前后查找取非

前面說到的向前查找和向后查找通常都是用來匹配文本，其目的是為了確定將被返回的匹配結果的文本的位置（通過指定匹配結果的前后必須是哪些文本）。這種用法叫正向前查找和正向后查找。還有一種負向前查找和負向后查找，是查找那些不與給定模式相匹配的文本。

前后查找的操作符：