正則表達式在網(wǎng)頁處理中的應用四則

2020-03-16 21:19:16

字體：大中小

來源：轉載

供稿：網(wǎng)友

正則表達式(Regular Expression)為字符串模式匹配提供了一種高效、方便的方法。幾乎所有高級語言都提供了對正則表達式的支持，或者提供了現(xiàn)成的代碼庫供調用。本文以ASP環(huán)境中常見的處理任務為例，介紹正則表達式的應用技巧。

一、檢驗密碼和郵件地址的格式

我們的第一個實例示范正則表達式的一項基本功能：抽象地描述任意復雜的字符串。它的意思就是，正則表達式給予程序員一種形式化的字符串描述方法，只需很少的代碼即可描述出應用遇到的任意字符串模式。例如，對于不從事技術工作的人來說，密碼格式的要求可以描述如下：密碼的第一個字符必須是字母，密碼最少4個字符且不超過15個字符，密碼不能包含除字母、數(shù)字和下劃線以外的字符。

作為程序員，我們必須把上面對密碼格式的自然語言描述轉換成其他形式，使得ASP頁面能夠理解并應用它來防止非法的密碼輸入。描述這個密碼格式的正則表達式是：^[a-zA-Z]/w{3,14}$。在ASP應用里，我們可以把密碼驗證過程寫成可重用的函數(shù)，如下所示：

Function TestPassword(strPassword)Dim reSet re = new RegExpre.IgnoreCase = falsere.global = falsere.Pattern = "^[a-zA-Z]/w{3,14}$"TestPassword = re.Test(strPassword)End Function

下面我們把這個檢驗密碼格式的正則表達式和自然語言描述對比著看看：

密碼的第一個字符必須是字母：正則表達式描述是“^[a-zA-Z]”，其中“^”表示字符串的開始，連字符告訴RegExp匹配指定范圍的所有字符。

密碼最少4個字符且不超過15個字符：正則表達式描述是“{3,14}”。

密碼不能包含除字母、數(shù)字和下劃線以外的字符：正則表達式描述是“/w”。

幾點說明：{3，14}表示前面的模式匹配至少3個、但不超過14個的字符(加上第一個字符就成了4到15個字符)。注意花括號內的語法要求極其嚴格，不允許在逗號的兩邊加入空格。如果加入了空格，它將對正則表達式的含義產(chǎn)生影響，導致密碼格式檢驗時產(chǎn)生錯誤。另外，上面的正則表達式末尾也沒有加上“$”字符。$字符使得正則表達式匹配字符串直至末尾，確保合法的密碼后面沒有加上任何其他字符。

類似于密碼格式檢驗，檢查email地址的合法性也是一個很常見的問題，用正則表達式進行簡單的email地址檢驗可以實現(xiàn)如下：

＜%Dim reSet re = new RegExpre.pattern = "^/w+@[a-zA-Z_]+?/.[a-zA-Z]{2,3}$"Response.Write re.Test("aabb@yahoo.com")%＞

二、提取HTML頁面的特定部分

從HTML頁面提取內容所面臨的主要問題是，我們必須尋找一種方法精確地識別出自己想要的那一部分內容。例如，下面是一個顯示新聞標題的HTML代碼片斷：

＜table border="0" width="11%" class="Somestory"＞＜tr＞＜td width="100%"＞＜p align="center"＞其他內容...＜/td＞＜/tr＞＜/table＞＜table border="0" width="11%" class="Headline"＞＜tr＞＜td width="100%"＞＜p align="center"＞伊拉克戰(zhàn)爭！＜/td＞＜/tr＞＜/table＞＜table border="0" width="11%" class="Someotherstory"＞＜tr＞＜td width="100%"＞＜p align="center"＞其他內容...＜/td＞＜/tr＞＜/table＞

觀察上述代碼，很容易看出新聞標題由位于中間的表格顯示，它的class屬性設置為Headline。如果HTML頁面非常復雜，使用Microsoft IE從5.0開始提供的一項附加功能可以只查看被選中部分頁面的HTML代碼，請訪問http://www.microsoft.com/Windows/ie/WebAccess/default.ASP了解詳情。對于本例，我們假定這是唯一class屬性設置為Headline的表格。現(xiàn)在我們要創(chuàng)建正則表達式，通過正則表達式找到這個Headline表格并把這個表格包含到自己的頁面中。首先是編寫支持正則表達式的代碼：

＜%Dim re, strHTMLSet re = new RegExp ' 創(chuàng)建正則表達式對象re.IgnoreCase = truere.Global = false ' 第一次匹配之后結束查找%＞

下面考慮一下我們要提取的區(qū)域：在這里，我們要提取的是整個

結構，包括結束標記和新聞標題的文本。因此查找的起始字符應該是

開始標記： re.Pattern = "

這個正則表達式匹配表格的開始標記，能夠返回開始標記直至“Headline”之間的所有內容(換行除外)。下面是返回已匹配HTML代碼的方法：

' 把所有匹配的HTML代碼放入Matches集合Set Matches = re.Execute(strHTML)' 顯示所有匹配的HTML代碼For Each Item in MatchesResponse.Write Item.ValueNext' 顯示其中一項Response.write Matches.Item(0).Value

運行這段代碼處理前面顯示的HTML片斷，正則表達式返回一次匹配的內容如下：

"。其中：“(.|/n)”后面的“*”匹配0個到多個任意字符;而“?”使得“*”匹配范圍最小化，即在找到表達式的下一部分之前匹配盡可能少的字符。

是表格的結束標記。

“?”限制符非常重要，它防止了表達式返回其他表格的代碼。例如對于前面給出的HTML代碼片斷，如果刪除這個“?”則返回內容將是：

＜table border="0" width="11%" class="Headline"＞＜tr＞＜td width="100%"＞＜p align="center"＞伊拉克戰(zhàn)爭！＜/td＞＜/tr＞＜/table＞＜table border="0" width="11%" class="Someotherstory"＞＜tr＞＜td width="100%"＞＜p align="center"＞其他內容...＜/td＞＜/tr＞＜/table＞

返回的內容不僅包含了Headline表的

標記，而且還包含了Someotherstory表格，由此可以看出，這里的“?”是必不可少的。

本例假設了一些相當理想化的前提。實際應用中情況往往要復雜得多，特別是你對正在使用的源HTML代碼的編寫沒有任何影響力時，編寫ASP代碼尤為困難。最有效的方法是，多花些時間分析待提取內容附近的HTML，經(jīng)常地測試，確保提取出來的內容正是自己所需要的。

另外，應當重視并處理正則表達式不能匹配源HTML頁面任何內容的情形。內容的更新可能非常快速，不要只因為別人改變了內容的格式而讓自己的頁面出現(xiàn)低級可笑的錯誤。

三、解析文本數(shù)據(jù)文件

數(shù)據(jù)文件的格式和種類很多，XML文檔、結構化文本甚至非結構化文本都經(jīng)常成為ASP應用的數(shù)據(jù)源。下面我們要看的一個例子是使用限定符的結構化文本文件。限定符(比如引號)表示字符串各個部分不可分割，即使字符串內部包含把記錄分隔成字段的分隔符也一樣。下面是一個簡單的結構化文本文件：

姓,名, 電話, 說明孫,悟空, 312 555 5656, ASP很好豬,八戒, 847 555 5656, 我是電影制片人

這個文件非常簡單，它的第一行是標題，下面兩行是用逗號作為分隔符的記錄。要解析這個文件也很簡單，只需先把文件分割成行(根據(jù)換行符號)，然后把各個記錄按照字段分割。但是，如果我們在某個字段內容中加入了逗號：

姓,名, 電話, 說明孫,悟空, 312 555 5656, 我喜歡ASP,還有VB和SQL豬,八戒, 847 555 5656, 我是電影制片人

解析第一個記錄時就會出現(xiàn)問題，因為在只認可逗號分隔符的解析器看來它的最后一個字段包含了兩個字段的內容。為了避免出現(xiàn)這類問題，包含分隔符的字段必須用限定符包圍。單引號就是一種常用的限定符。把上面的文本文件加上單引號限定符之后，它的內容如下所示：

姓,名, 電話, 說明孫,悟空, 312 555 5656, '我喜歡ASP,還有VB和SQL'豬,八戒, 847 555 5656, '我是電影制片人'

現(xiàn)在我們能夠肯定哪一個逗號是分隔符、哪一個逗號是字段內容了，即只需把引號內部出現(xiàn)的逗號視為字段的內容。接下來我們要做的就是實現(xiàn)一個正則表達式解析器，由這個解析器確定何時根據(jù)逗號分割字段、何時把逗號視為字段內容。

這里的問題與大多數(shù)正則表達式所面臨的略有不同。通常我們查看的是文本的一小部分，看看它是否能夠和正則表達式匹配。但在這里，只有考慮了整行文本之后我們才能可靠地判斷出哪些內容位于引號之內。

下面是一個說明該問題的例子。從某個文本文件隨意抽取半行內容，得到：1, 沙灘, 黑色, 21, ', 狗, 貓, 鴨子, ', 。在這個例子中，因為“1”的左邊還有其他數(shù)據(jù)，要解析清楚它的內容是極其困難的。我們不知道這個數(shù)據(jù)片斷的前面有多少單引號，從而也就無法判斷哪些字符位于引號之內(在引號之內的文本解析時不能分割)。如果這個數(shù)據(jù)片斷之前有偶數(shù)個(或者沒有)單引號，那么“', 狗, 貓, 鴨子, '”是用引號界定的字符串且不可分割。如果前面的引號數(shù)量是奇數(shù)，那么“1, 沙灘, 黑色, 21, '”是某個字符串的結束部分且不可分割。

因此，正則表達式必須分析整行文本，全面考慮出現(xiàn)了多少引號才能確定字符是處在引號對的內部還是外部，即：,(?=([^']*'[^']*')*(?![^']*'))。這個正則表達式首先找到一個引號，然后繼續(xù)查找并保證逗號后面的單引號數(shù)量或者是偶數(shù)、或者是0。該正則表達式以下面這個判斷為基礎：如果逗號后面的單引號數(shù)量是偶數(shù)，那么這個逗號位于字符串之外。下表給出了更詳細的說明：

,	尋找一個逗號
(?=	繼續(xù)向前查找以匹配下面這個模式：
(	開始一個新的模式
[^']*'	[非引號字符]0個或者多個，然后是一個引號
[^']'[^'])	[非引號字符]0個或者多個，然后是一個引號。結合前面的內容之后它匹配引號對
)*	結束模式并匹配整個模式（引號對）0次或者多次
(?!	向前查找，排除此模式
[^']*'	[非引號字符]0個或者多個，然后是一個引號
)	結束模式

下面是一個VBScript函數(shù)，它接受一個字符串參數(shù)，根據(jù)字符串中的逗號分隔符、單引號限定符分割字符串，返回結果數(shù)組：

Function SplitAdv(strInput)Dim objRESet objRE = new RegExp' 設置RegExp對象objRE.IgnoreCase = trueobjRE.Global = trueobjRE.Pattern = ",(?=([^']*'[^']*')*(?![^']*'))"' Replace方法用chr(8)替換我們要用到的逗號，chr(8)即/b' 字符，/b在字符串中出現(xiàn)的可能極為微小。' 然后我們根據(jù)/b把字符串分割保存到數(shù)組SplitAdv = Split(objRE.Replace(strInput, "/b"), "/b")End Function

總而言之，用正則表達式解析文本數(shù)據(jù)文件具有高效、縮短開發(fā)時間的優(yōu)點，能夠節(jié)省大量分析文件、根據(jù)復雜的條件提取有用數(shù)據(jù)的時間。在一個迅速發(fā)展的環(huán)境中仍會有許多傳統(tǒng)的數(shù)據(jù)可資利用，掌握如何構造高效的數(shù)據(jù)分析例程將是一種寶貴的技能。

四、字符串替換

在最后一個例子中我們要看看VBScript正則表達式的替換功能。ASP經(jīng)常用于動態(tài)地格式化從各種數(shù)據(jù)源獲得的文本。利用VBScript正則表達式的強大功能，ASP能夠動態(tài)地改變匹配的復雜文本。通過加入HTML標記突出顯示部分單詞就是一種常見的應用，比如突出顯示搜索結果中的搜索關鍵詞。

為說明實現(xiàn)方法，下面我們來看一個突出顯示字符串中所有“.NET”的例子。這個字符串可以從任何地方獲得，比如數(shù)據(jù)庫或者其他Web網(wǎng)站。

＜%Set regEx = New RegExpregEx.Global = trueregEx.IgnoreCase = True' 正則表達式模式，' 尋找任何結尾為“.NET”的單詞或者URL。regEx.Pattern = "(/b[a-zA-Z/._]+?/.NET/b)"' 用于測試替換功能的字符串strText = "微軟建立了一個新網(wǎng)站www.ASP.NET。"' 調用正則表達式的Replace方法' $1表示把匹配的文本插入當前位置Response.Write regEx.Replace(strText, _"＜b style='color: #000099; font-size: 18pt'＞$1＜/b＞")%＞

這個例子中有幾個重要的地方必須注意。整個正則表達式被放入了一對圓括號中，它的作用是截取所有匹配的內容供以后使用，這些內容在替換文本中通過$1引用。類似的截取每次替換可以使用多達9個，分別通過$1到$9引用。正則表達式的Replace方法和VBScript本身的Replace函數(shù)不同，它只需要兩個參數(shù)：被搜索的文本，替換用的文本。

在這個例子中，為了突出顯示搜索到的“.NET”字符串，我們用粗體標記以及其他樣式屬性來包圍這些字符串。使用這種搜索和替換技術，我們能夠方便地為網(wǎng)站搜索程序加上突出顯示搜索關鍵詞的功能，或者自動為頁面中出現(xiàn)的關鍵詞加上指向其他頁面的鏈接。

結束語

希望本文介紹的幾種正則表達式技巧對你在何時、如何應用正則表達式有所啟發(fā)。雖然本文的例子用VBScript編寫，但在ASP.NET中正則表達式同樣也大有用武之地，它是服務器端控件表單檢驗的主要機制之一，而且通過System.Text.RegularExpressions命名空間導出到了整個.NET框架之中。

上一篇：asp正則表達式匹配數(shù)字$數(shù)字$數(shù)字$

下一篇：最常用的PHP正則表達式收集整理