Java正則表達(dá)式庫----Jakarta-ORO

2019-11-14 22:48:26

字體：大中小

供稿：網(wǎng)友

java正則表達(dá)式庫----Jakarta-ORO轉(zhuǎn)載自: http://blog.csdn.net/qdsy521/article/details/7037837

由于工作的需要，本人經(jīng)常要面對大量的文字電子資料的整理工作，因此曾對在JAVA中正則表達(dá)式的應(yīng)用有所關(guān)注，并對其有一定的了解，希望通過本文與同行進(jìn)行有關(guān)方面的心得交流。正則表達(dá)式：正則表達(dá)式是一種可以用于模式匹配和替換的強(qiáng)有力的工具，一個正則表達(dá)式就是由普通的字符（例如字符 a 到 z）以及特殊字符（稱為元字符）組成的文字模式，它描述在查找文字主體時待匹配的一個或多個字符串。正則表達(dá)式作為一個模板，將某個字符模式與所搜索的字符串進(jìn)行匹配。正則表達(dá)式在字符數(shù)據(jù)處理中起著非常重要的作用，我們可以用正則表達(dá)式完成大部分的數(shù)據(jù)分析處理工作，如:判斷一個串是否是數(shù)字、是否是有效的Email地址，從海量的文字資料中提取有價值的數(shù)據(jù)等等，如果不使用正則表達(dá)式，那么實現(xiàn)的程序可能會很長，并且容易出錯。對這點(diǎn)本人深有體會，面對大量工具書電子檔資料的整理工作，如果不懂得應(yīng)用正則表達(dá)式來處理，那么將是很痛苦的一件事情，反之則將可以輕松地完成，獲得事半功倍的效果。由于本文目的是要介紹如何在JAVA里運(yùn)用正則表達(dá)式，因此對剛接觸正則表達(dá)式的讀者請參考有關(guān)資料，在此因篇幅有限不作介紹。 JAVA對正則表達(dá)式的支持：在JDK1.3或之前的JDK版本中并沒有包含正則表達(dá)式庫可供JAVA程序員使用，之前我們一般都在使用第三方提供的正則表達(dá)式庫，這些第三方庫中有源代碼開放的，也有需付費(fèi)購買的，而現(xiàn)時在JDK1.4的測試版中也已經(jīng)包含有正則表達(dá)式庫---java.util.regex。故此現(xiàn)在我們有很多面向JAVA的正則表達(dá)式庫可供選擇，以下我將介紹兩個較具代表性的Jakarta-ORO和java.util.regex，首先當(dāng)然是本人一直在用的Jakarta-ORO： Jakarta-ORO正則表達(dá)式庫 1．簡介： Jakarta-ORO是最全面以及優(yōu)化得最好的正則表達(dá)式API之一，Jakarta-ORO庫以前叫做OROMatcher，是由Daniel F. Savarese編寫，后來他將其贈與Jakarta PRoject，讀者可在Apache.org的網(wǎng)站下載該API包。許多源代碼開放的正則表達(dá)式庫都是支持Perl5兼容的正則表達(dá)式語法，Jakarta-ORO正則表達(dá)式庫也不例外，他與Perl 5正則表達(dá)式完全兼容。 2．對象與其方法： ★PatternCompiler對象：我們在使用Jakarta-ORO API包時，最先要做的是，創(chuàng)建一個Perl5Compiler類的實例，并把它賦值給PatternCompiler接口對象。Perl5Compiler是PatternCompiler接口的一個實現(xiàn)，允許你把正則表達(dá)式編譯成用來匹配的Pattern對象。 PatternCompiler compiler=new Perl5Compiler(); ★Pattern對象：要把所對應(yīng)的正則表達(dá)式編譯成Pattern對象，需要調(diào)用compiler對象的compile()方法，并在調(diào)用參數(shù)中指定正則表達(dá)式。舉個例子，你可以按照下面這種方式編譯正則表達(dá)式"s[ahkl]y"： Pattern pattern=null; try { pattern=compiler.compile("s[ahkl]y "); } catch (MalformedPatternException e) { e.printStackTrace(); } 在默認(rèn)的情況下，編譯器會創(chuàng)建一個對大小寫敏感的模式（pattern）。因此，上面代碼編譯得到的模式只匹配"say"、"shy"、 "sky"和"sly"，但不匹配"Say"和"skY"。要創(chuàng)建一個大小寫不敏感的模式，你應(yīng)該在調(diào)用編譯器的時候指定一個額外的參數(shù): pattern=compiler.compile("s[ahkl]y",Perl5Compiler.CASE_INSENSITIVE_MASK); Pattern對象創(chuàng)建好之后，就可以通過PatternMatcher類用該P(yáng)attern對象進(jìn)行模式匹配。 ★PatternMatcher對象: PatternMatcher對象依據(jù)Pattern對象和字符串展開匹配檢查。你要實例化一個Perl5Matcher類并把結(jié)果賦值給PatternMatcher接口。Perl5Matcher類是PatternMatcher接口的一個實現(xiàn)，它根據(jù)Perl 5正則表達(dá)式語法進(jìn)行模式匹配： PatternMatcher matcher=new Perl5Matcher(); PatternMatcher對象提供了多個方法進(jìn)行匹配操作，這些方法的第一個參數(shù)都是需要根據(jù)正則表達(dá)式進(jìn)行匹配的字符串： boolean matches(String input, Pattern pattern)：當(dāng)要求輸入的字符串input和正則表達(dá)式pattern精確匹配時使用該方法。也就是說當(dāng)正則表達(dá)式完整地描述輸入字符串時返回真值。 boolean matchesPrefix(String input, Pattern pattern)：要求正則表達(dá)式匹配輸入字符串起始部分時使用該方法。也就是說當(dāng)輸入字符串的起始部分與正則表達(dá)式匹配時返回真值。 boolean contains(String input, Pattern pattern)：當(dāng)正則表達(dá)式要匹配輸入字符串的一部分時使用該方法。當(dāng)正則表達(dá)式為輸入字符串的子串時返回真值。但以上三種方法只會查找輸入字符串中匹配正則表達(dá)式的第一個對象，如果當(dāng)字符串可能有多個子串匹配給定的正則表達(dá)式時，那么你就可以在調(diào)用上面三個方法時用PatternMatcherInput對象作為參數(shù)替代String對象，這樣就可以從字符串中最后一次匹配的位置開始繼續(xù)進(jìn)行匹配，這樣就方便的多了。用PatternMatcherInput對象作為參數(shù)替代String時，上述三個方法的語法如下： boolean matches(PatternMatcherInput input, Pattern pattern) boolean matchesPrefix(PatternMatcherInput input, Pattern pattern) boolean contains(PatternMatcherInput input, Pattern pattern) ★Util.substitute()方法: 查找后需要要進(jìn)行替換，我們就要用到Util.substitute()方法，其語法如下： public static String substitute(PatternMatcher matcher, Pattern pattern,Substitution sub,String input, int numSubs) 前兩個參數(shù)分別為PatternMatcher和Pattern對象。而第三個參數(shù)是個Substiution對象，由它來決定替換操作如何進(jìn)行。第四個參數(shù)是要進(jìn)行替換操作的目標(biāo)字符串，最后一個參數(shù)用來指定是否替換模式的所有匹配子串（Util.SUBSTITUTE_ALL），或只進(jìn)行指定次數(shù)的替換。在這里我相信有必要詳細(xì)解說一下第三個參數(shù)Substiution對象，因為它將決定替換將怎樣進(jìn)行。 Substiution: Substiution是一個接口類，它為你提供了在使用Util.substitute()方法時控制替換方式的手段，它有兩個標(biāo)準(zhǔn)的實現(xiàn)類：StringSubstitution與Perl5Substitution。當(dāng)然，同時你也可以生成自己的實現(xiàn)類來定制你所需要的特殊替換動作。 StringSubstitution： StringSubstitution 實現(xiàn)的是簡單的純文字替換手段，它有兩個構(gòu)造方法： StringSubstitution()->缺省的構(gòu)造方法，初始化一個包含零長度字符串的替換對象。 StringSubstitution(java.lang.String substitution)->初始化一個給定字符串的替換對象。 Perl5Substitution： Perl5Substitution 是StringSubstitution的子類，它在實現(xiàn)純文字替換手段的同時也允許進(jìn)行針對MATH類里各匹配組的PERL5變量的替換，所以他的替換手段比其直接父類StringSubstitution更為多元化。它有三個構(gòu)造器： Perl5Substitution() Perl5Substitution(java.lang.String substitution) Perl5Substitution(java.lang.String substitution, int numInterpolations) 前兩種構(gòu)造方法與StringSubstitution一樣，而第三種構(gòu)造方法下面將會介紹到。在Perl5Substitution的替換字符串中可以包含用來替代在正則表達(dá)式里由小擴(kuò)號圍起來的匹配組的變量，這些變量是由$1, $2,$3等形式來標(biāo)識。我們可以用一個例子來解釋怎樣使用替換變量來進(jìn)行替換：假設(shè)我們有正則表達(dá)式模式為b/d+:（也就是b[0-9]+:），而我們想把所有匹配的字符串中的"b"都改為"a",而"："則改為"-"，而其余部分則不作修改，如我們輸入字符串為"EXAMPLE b123:"，經(jīng)過替換后就應(yīng)該變成"EXAMPLE a123-"。要做到這點(diǎn)，我們就首先要把不做替換的部分用分組符號小括號包起來，這樣正則表達(dá)式就變?yōu)?quot;b(/d+):"，而構(gòu)造Perl5Substitution對象時其替換字符串就應(yīng)該是"a$1-"，也就是構(gòu)造式為Perl5Substitution（"a$1-"），表示在使用Util.substitute()方法時只要在目標(biāo)字符串里找到和正則表達(dá)式" b(/d+): "相匹配的子串都用替換字符串來替換，而變量$1表示如果和正則表達(dá)式里第一個組相匹配的內(nèi)容則照般原文插到$1所在的為置，如在"EXAMPLE b123："中和正則表達(dá)式相匹配的部分是"b123："，而其中和第一分組"(/d+)"相匹配的部分則是"123"，所以最后替換結(jié)果為"EXAMPLE a123-"。有一點(diǎn)需要清楚的是，如果你把構(gòu)造器Perl5Substitution(java.lang.String substitution,int numInterpolations) 中的numInterpolations參數(shù)設(shè)為INTERPOLATE_ALL，那么當(dāng)每次找到一個匹配字串時，替換變量（$1，$2等）所指向的內(nèi)容都根據(jù)目前匹配字串來更新，但是如果numInterpolations參數(shù)設(shè)為一個正整數(shù)N時，那么在替換時就只會在前N次匹配發(fā)生時替換變量會跟隨匹配對象來調(diào)整所代表的內(nèi)容，但N次之后就以一致以第N次替換變量所代表內(nèi)容來做為以后替換結(jié)果。舉個例子會更好理解：假如沿用以上例子中的正則表達(dá)式模式以及替換內(nèi)容來進(jìn)行替換工作，設(shè)目標(biāo)字符串為"Tank b123: 85 Tank b256: 32 Tank b78: 22"，并且設(shè)numInterpolations參數(shù)為INTERPOLATE_ALL，而Util.substitute()方法中的numSub變量設(shè)為SUBSTITUTE_ALL（請參考上文Util.substitute()方法內(nèi)容），那么你獲得的替換結(jié)果將會是： Tank a123- 85 Tank a256- 32 Tank a78- 22 但是如果你把numInterpolations設(shè)為2，并且numSubs依然設(shè)為SUBSTITUTE_ALL，那么這時你獲得的結(jié)果則會是： Tank a123- 85 Tank a256- 32 Tank a256- 22 你要注意到最后一個替換所用變量$1所代表的內(nèi)容與第二個$1一樣為"256"，而不是預(yù)期的"78"，因為在替換進(jìn)行中，替換變量$1只根據(jù)匹配內(nèi)容進(jìn)行了兩次更新，最后一次就使第二次匹配時所更新的結(jié)果，那么我們可以由此知道，如果numInterpolations設(shè)為1，那么結(jié)果將是： Tank a123- 85 Tank a123- 32 Tank a123- 22 3．應(yīng)用示例：剛好前段時間公司準(zhǔn)備出一個《伊索預(yù)言》的英語學(xué)習(xí)互動教材，其中有電子檔資料的整理工作，我們就以此為例來看一下Jakarta-ORO與JDBC2.0 API結(jié)合起來對數(shù)據(jù)庫內(nèi)的資料進(jìn)行簡單提取與整理的實現(xiàn)。假設(shè)由錄入部的同事送過來的存放在MS SQLSERVER 7數(shù)據(jù)庫里的電子檔的表結(jié)構(gòu)如下（注：或許在不同的DBMS中有相應(yīng)的正則表達(dá)式的應(yīng)用，但這不在本文討論范圍內(nèi)）：表名：AESOP, 表中每條記錄包含有三列: ID（int）：單詞索引號 Word（varchar）：單詞 CONTENT(varchar)：存放單詞的相關(guān)解釋與例句等內(nèi)容其中CONTENT列中內(nèi)容的格式如下： [音標(biāo)] [詞性] （解釋）{(例句一/例句解釋/例句中該詞的詞性: 單詞在句中的意思) (例句二/例句解釋/例句中該詞的詞性: 單詞在句中的意思)} 如對應(yīng)單詞Kevin,CONTENT中的內(nèi)容如下： ['kevin] [名詞]（人名凱文）{(Kevin loves comic./凱文愛漫畫/名詞: 凱文)( Kevin is living in ZhuHai now./凱文現(xiàn)住在珠海/名詞: 凱文)} 我們的例子主要針對CONTENT列中內(nèi)容進(jìn)行字符串處理。 ★查找單個匹配：首先，讓我們嘗試把CONTNET列中的[音標(biāo)]字段的內(nèi)容列示出來，由于所有單詞的記錄中都有這一項并且都在字串開始位置，所以這個查找工作比較簡單：確定相應(yīng)的正則表達(dá)式：/[[^]]+/] 這個是很簡單的正則表達(dá)式，其意思是要求相匹配的字符串必須為以一對中括號包含的所有內(nèi)容，如['kevin] 、[名詞]等，但內(nèi)容中不包括"]"符號，也就是要避免出現(xiàn)"[][]"會作為一個匹配對象的情況出現(xiàn)（有關(guān)正則表達(dá)式的基礎(chǔ)知識請參照有關(guān)資料，這里不再詳述）。注意，在Java中，你必須對每一個向前的斜杠（"/"）進(jìn)行轉(zhuǎn)義處理。所以我們要在上面的正則表達(dá)式里每個"/"前面加上一個"/"以免出現(xiàn)編譯錯誤，也就是在JAVA中初始化正則表達(dá)式的字符串的語句應(yīng)該為： String restring=" //[[^]]+//]"; 并且在表達(dá)式里每個符號中間不能有空格，否則就會同樣出現(xiàn)編譯錯誤。實例化PatternCompiler對象，創(chuàng)建Pattern對象 PatternCompiler compiler=new Perl5Compiler(); Pattern pattern=compiler.compile(restring); 創(chuàng)建PatternMatcher對象，調(diào)用PatternMatcher接口的contain()方法檢查匹配情況： PatternMatcher matcher=new Perl5Matcher(); if (matcher.contains(content,pattern)) { //處理代碼片段 } 這里matcher.contains(content,pattern)中的參數(shù) content是從數(shù)據(jù)庫里取來的字符串變量。該方法只會查到第一個匹配的對象字符串，但是由于音標(biāo)項均在CONETNET內(nèi)容字符串中的起始位置，所以用這個方法就已經(jīng)可以保證把每條記錄里的音標(biāo)項找出來了,但更為直接與合理的辦法是使用boolean matchesPrefix(PatternMatcherInput input, Pattern pattern)方法，該方法驗證目標(biāo)字符串是否以正則表達(dá)式所匹配的字串為起始。具體實現(xiàn)的完整的程序代碼如下： package RegularExpressions; //import…… import org.apache.oro.text.regex.*; //使用Jakarta-ORO正則表達(dá)式庫前需要把它加到CLASSPATH里面，如果用IDE是//JBUILDER，那么也可以在JBUILDER里直接自建新庫。 public class yisuo{ public static void main(String[] args){ try{ //使用JDBC DRIVER進(jìn)行DBMS連接，這里我使用的是一個第三方JDBC //DRIVER，Microsoft本身也有一個面向SQLSERVER7/2000的免費(fèi)JDBC //DRIVER，但其性能真的是奇差，不用也罷。 Class.forName("com.jnetdirect.jsql.JSQLDriver"); Connection con=DriverManager.getConnection ("jdbc:JSQLConnect://kevin:1433","kevin chen","re"); Statement stmt = con.createStatement(ResultSet.TYPE_SCROLL_SENSITIVE, ResultSet.CONCUR_UPDATABLE); //為使用Jakarta-ORO庫而創(chuàng)建相應(yīng)的對象 String rsstring=" //[[^]]+//]"; PatternCompiler orocom=new Perl5Compiler(); Pattern pattern=orocom.compile(rsstring); PatternMatcher matcher=new Perl5Matcher(); ResultSet uprs = stmt.executeQuery("SELECT * FROM aesop"); while (uprs.next()) { Stirng word=uprs.getString("word"); Stirng content=uprs.getString("content"); if(matcher.contains(content,pattern)){ //或if(matcher.matchesPrefix(content,pattern)){ MatchResult result=matcher.getMatch(); Stirng pure=result.toString(); System.out.println(word+"的音標(biāo)為："+pure); } } } catch(Exception e) { System.out.println(e); } } } 輸出結(jié)果為：kevin的音標(biāo)為['kevin] 在這個處理中我是用toString()方法來取得結(jié)果，但是如果正則表達(dá)式里是用了分組符號（圓括號），那么就可以用group(int gid)的方法來取得相應(yīng)各組匹配的結(jié)果，如正則表達(dá)式改為" (/[[^]]+/])"，那么就可以用以下方法來取得結(jié)果：pure=result.group(0); 用程序驗證，輸出結(jié)果同樣為：kevin的音標(biāo)為['kevin] 而如果正則表達(dá)式為（/[[^]]+/]）（/[[^]]+/]），則會查找到兩個連續(xù)的方括號所包含的內(nèi)容，也就找到[音標(biāo)] [詞性]兩項，但是兩項的結(jié)果分別在兩個組里面，分別由下面語句獲得結(jié)果： result.group(0)->返回[音標(biāo)] [詞性]兩項內(nèi)容，也就是與整個正則表達(dá)式相匹配的結(jié)果字符串，在這里也就為['kevin] [名詞] result.group(1) ->返回[音標(biāo)]項內(nèi)容，結(jié)果應(yīng)是['kevin] result.group(2) ->返回[詞性]項內(nèi)容，結(jié)果應(yīng)是[名詞] 繼續(xù)用程序驗證，發(fā)現(xiàn)輸出并不正確，主要是當(dāng)內(nèi)容有中文時就不能成功匹配，考慮到可能是Jakarta-ORO正則表達(dá)式庫版本不支持中文的問題，回看一下原來我一直用的還是2.0.1的老版本，馬上到Jakarta.org上下載最新的2.0.4版本裝上再用程序驗證，得出的結(jié)果就和預(yù)期一樣正確。 ★查找多個匹配：經(jīng)過第一步的嘗試使用Jakarta-ORO后，我們已經(jīng)知道了如何正確使用該API包來查找目標(biāo)字符串里一個匹配的子串，下面我們接著來看一看當(dāng)目標(biāo)字符串里包含不止一個匹配的子串時我們?nèi)绾伟阉鼈円粋€接一個找出來進(jìn)行相應(yīng)的處理。首先我們先試個簡單的應(yīng)用，假設(shè)我們想把CONTNET字段內(nèi)容里所有用方括號包起來的字串都找出來，很清楚地，CONTNET字段的內(nèi)容里面就只有兩項匹配的內(nèi)容：[音標(biāo)]和 [詞性]，剛才我們其實已經(jīng)把它們分別找出來了，但是我們所用的方法是分組方法，把"[音標(biāo)] [詞性]"作為一整個正則表達(dá)式匹配的內(nèi)容先找到，再根據(jù)分組把[音標(biāo)]和 [詞性]分別挑出來。但是現(xiàn)在我們需要做的是把[音標(biāo)]和[詞性]分別做為與同一個正則表達(dá)式匹配的內(nèi)容，先找到一個接著再找下一個，也就是剛才我們的表達(dá)式為（/[[^]]+/]）（/[[^]]+/]）,而現(xiàn)在應(yīng)為" /[[^]]+/] "。我們已經(jīng)知道在匹配操作的三個方法里只要用PatternMatcherInput對象作為參數(shù)替代String對象就可以從字符串中最后一次匹配的位置開始繼續(xù)進(jìn)行匹配，實現(xiàn)的程序片段如下： PatternMatcherInput input=new PatternMatcherInput(content); while (matcher.contains(input,pattern)) { result=matcher.getMatch(); System.out.println(result.group(0)) } 輸出結(jié)果為:['kevin] [名詞] 接著我們來做復(fù)雜一點(diǎn)的處理，就是我們要先把下面內(nèi)容： ['kevin] [名詞]（人名凱文）{(Kevin loves comic./凱文愛漫畫/名詞: 凱文)( Kevin is living in ZhuHai now. /凱文現(xiàn)住在珠海/名詞: 凱文)}中的整個例句部分（也就是由大括號所包含的部分）找出來，再分別把例句一和例句二找出，而各例句中的各項內(nèi)容（英文句、中文句、詞性、解釋）也要分項列出。第一步當(dāng)然是要定出相應(yīng)的正則表達(dá)式，需要有兩個，一是和整個例句部分（也就是由大括號包起來的部分）匹配的正則表達(dá)式："/{.+/}", 另一個則要和每個例句部分匹配（也就是小括號中的內(nèi)容），：/(([^)]+/) 而且由于要把例句的各項分離出來，所以要再把里面的各部分用分組的方法匹配出來：" ([^(]+)/(.+)/(.+):([^)]+) "。為了簡便起見，我們不再和從數(shù)據(jù)庫里讀出，而是構(gòu)造一個包含同樣內(nèi)容的字符串變量，程序片段如下： try{ String content="['kevin] [名詞]（人名凱文）{(Kevin loves comic./凱文愛漫畫/名詞:凱文) (Kevin is living in ZhuHai now./凱文現(xiàn)住在珠海/名詞: 凱文)}"; String ps1="//{.+//}"; String ps2="//([^)]+//)"; String ps3="([^(]+)/(.+)/(.+):([^)]+)"; String sentence; PatternCompiler orocom=new Perl5Compiler(); Pattern pattern1=orocom.compile(ps1); Pattern pattern2=orocom.compile(ps2); Pattern pattern3=orocom.compile(ps3); PatternMatcher matcher=new Perl5Matcher(); //先找出整個例句部分 if (matcher.contains(content,pattern1)) { MatchResult result=matcher.getMatch(); String example=result.toString(); PatternMatcherInput input=new PatternMatcherInput(example); //分別找出例句一和例句二 while (matcher.contains(input,pattern2)){ result=matcher.getMatch(); sentence=result.toString(); //把每個例句里的各項用分組的辦法分隔出來 if (matcher.contains(sentence,pattern3)){ result=matcher.getMatch(); System.out.println("英文句: "+result.group(1)); System.out.println("句子中文翻譯: "+result.group(2)); System.out.println("詞性: "+result.group(3)); System.out.println("意思: "+result.group(4)); } } } } catch(Exception e) { System.out.println(e); } 輸出結(jié)果為：英文句: Kevin loves comic. 句子中文翻譯: 凱文愛漫畫詞性: 名詞意思: 凱文英文句: Kevin is living in ZhuHai now. 句子中文翻譯: 凱文現(xiàn)住在珠海詞性: 名詞意思: 凱文 ★查找替換：以上的兩個應(yīng)用都是單純在查找字符串匹配方面的，我們再來看一下查找后如何對目標(biāo)字符串進(jìn)行替換。例如我現(xiàn)在想把第二個例句進(jìn)行改動，換為：Kevin has seen《LEON》seveal times,because it is a good film./ 凱文已經(jīng)看過《這個殺手不太冷》幾次了，因為它是一部好電影。/名詞:凱文。也就是把 ['kevin] [名詞]（人名凱文）{(Kevin loves comic./凱文愛漫畫/名詞: 凱文)( Kevin is living in ZhuHai now. /凱文現(xiàn)住在珠海/名詞: 凱文)} 改為： ['kevin] [名詞]（人名凱文）{(Kevin loves comic./凱文愛漫畫/名詞: 凱文)( Kevin has seen《LEON》seveal times,because it is a good film./ 凱文已經(jīng)看過《這個殺手不太冷》幾次了，因為它是一部好電影。/名詞:凱文。)} 之前，我們已經(jīng)了解Util.substitute()方法與Substiution接口，以及Substiution的兩個實現(xiàn)類StringSubstitution和Perl5Substitution，我們就來看看怎么用Util.substitute()方法配合Perl5Substitution來完成我們上面提出的替換要求，確定正則表達(dá)式：我們要先找到其中的整個例句部分，也就是由大括號包起來的字串，并且把兩個例句分別分組，所以正則表達(dá)式為："/{(/([^)]+/))(/([^)]+/))/}"，如果用替換變量來代替分組，那么上面的表達(dá)式可以看為"/{$1$2/}",這樣就可以更容易看出替換變量與分組間的關(guān)系。根據(jù)上面的正則表達(dá)式Perl5Substitution類可以這樣構(gòu)造： Perl5Substitution("{$1( Kevin has seen《LEON》seveal times,because it is a good film./ 凱文已經(jīng)看過《這個殺手不太冷》幾次了，因為它是一部好電影。/名詞:凱文。)}") 再根據(jù)這個Perl5Substitution對象來使用Util.substitute()方法便可以完成替換了，實現(xiàn)的代碼片段如下： try{ String content="['kevin] [名詞]（人名凱文）{(Kevin loves comic./凱文愛漫畫/名詞: 凱文)(Kevin lives in ZhuHai now./凱文現(xiàn)住在珠海/名詞: 凱文)}"; String ps1="//{(//([^)]+//))(//([^)]+//))//}"; String sentence; String pure; PatternCompiler orocom=new Perl5Compiler(); Pattern pattern1=orocom.compile(ps1); PatternMatcher matcher=new Perl5Matcher(); String result=Util.substitute(matcher, pattern1,new Perl5Substitution( "{$1( Kevin has seen《LEON》seveal times,because it is a good film./ 凱文已經(jīng)看過《這個殺手不太冷》幾次了，因為它是一部好電影。/名詞:凱文。)}",1), content,Util.SUBSTITUTE_ALL); System.out.println(result); } catch(Exception e) { System.out.println(e); } 輸出結(jié)果是正確的，為： ['kevin] [名詞]（人名凱文）{(Kevin loves comic./凱文愛漫畫/名詞: 凱文)( Kevin has seen《LEON》seveal times,because it is a good film./ 凱文已經(jīng)看過《這個殺手不太冷》幾次了，因為它是一部好電影。/名詞:凱文。)} 至于有關(guān)使用numInterpolations參數(shù)的構(gòu)造器用法，讀者只要根據(jù)上面的介紹自己動手試一下就會清楚了，在此就不再例述。總結(jié)：本文首先介紹了Jakarta-ORO正則表達(dá)式庫的對象與方法，并且接著舉例讓讀者對實際應(yīng)用有進(jìn)一步的了解，雖然例子都比較簡單，但希望讀者們在看了該文后對Jakarta-ORO正則表達(dá)式庫有一定的認(rèn)知，在實際工作中有所幫助與啟發(fā)。其實在Jakarta org里除了Jakarta-ORO外還有一個百分百的純JAVA正則表達(dá)式庫，就是由Jonathan Locke贈與Jakarta ORG的Regexp，在該包里面包含了完整的文檔以及一個用于調(diào)試的Applet例子，對其有興趣的讀者可以到此下載。

上一篇：34_注解的定義與反射調(diào)用

下一篇：35_張孝祥Java高新技術(shù)_為注解增加各種屬性