国产探花免费观看_亚洲丰满少妇自慰呻吟_97日韩有码在线_资源在线日韩欧美_一区二区精品毛片,辰东完美世界有声小说,欢乐颂第一季,yy玄幻小说排行榜完本

首頁 > 編程 > Regex > 正文

正則基礎之 /b 單詞邊界

2020-03-16 21:16:32
字體:
來源:轉載
供稿:網(wǎng)友
1概述 
“/b”匹配單詞邊界,不匹配任何字符。 
“/b”匹配的只是一個位置,這個位置的一側是構成單詞的字符,另一側為非單詞字符、字符串的開始或結束位置。“/b”是零寬度的。 
基本上所有的資料里都會說“/b”是單詞邊界,但是關于“單詞”的范圍卻是少有提及。通常情況下,正則表達式中所謂的“單詞”,就是由“/w”所定義的字符所組成的子串。 
“/b”表示所在位置的一側為單詞字符,另一側為非單詞字符、字符串的開始或結束位置,也就相當于 
(?<!/w)(?=/w)|(?<=/w)(?!/w) 
思考:以下寫法為什么不等價于“/b” 
(?<=/W)(?=/w)|(?<=/w)(?=/W) 
2/w的范圍 
即然涉及到“/w”,那就要先考察一下它的范圍。 
在支持ASCII碼的語言中,如JavaScript,“/w”等價于[a-zA-Z0-9_] ; 
在支持Unicode的語言中,如.NET,默認情況下,“/w”除可以匹配[a-zA-Z0-9_]外,還可以匹配一些Unicode字符集,如漢字,全角數(shù)字等等。 
幾乎所有常見的語言都遵循這樣一個規(guī)律,只有Java是個例外。在Java中,“/w”的表現(xiàn)是比較奇怪的,Java是支持Unicode的,但Java的正則中的“/w”卻是等價于[a-zA-Z0-9_]的。 
先來看一下“/w”在幾種語言中匹配的例子 
JavaScript 
復制代碼代碼如下:

<script language="javascript"> 
var str = "abc_123中文_d3=efg漢字%"; 
var reg = //w+/g; 
var arr = str.match(reg); 
if(arr != null) 

for(var i=0;i<arr.length;i++) 

document.write(arr[i] + "<br />"); 


</script> 
//JavaScript中輸出 
abc_123 
_d3 
efg 

C# 
復制代碼代碼如下:

string test = "abc_123中文_d3=efg漢字%"; 
MatchCollection mc = Regex.Matches(test, @"/w+"); 
foreach (Match m in mc) 

richTextBox2.Text += m.Value + "/n"; 

//C#中輸出 
abc_123中文_d3 
efg漢字 

Java 
復制代碼代碼如下:

String test = "abc_123中文_d3=efg漢字%"; 
String reg = "//w+"; 
Matcher m = Pattern.compile(reg).matcher(test); 
while(m.find()) 

System.out.println(m.group()); 

//Java中輸出 
abc_123 
_d3 
efg 

可以看到,“/w”在Java中的輸出和JavaScript中是一樣的,都是只支持ASCII字符。 
3 /b的范圍 
常見語言中“/w”的范圍確定了,那么是不是可以認為“/b”的匹配范圍與“/w”也是一致的呢? 
再看下下面的例子: 
源字符串:abc_123中文_d3=漢字efg 
正則表達式:./b. 
JavaScript 
復制代碼代碼如下:

<script language="javascript"> 
var str = "abc_123中文_d3=efg漢字%"; 
var reg = /./b./g; 
var arr = str.match(reg); 
if(arr != null) 

for(var i=0;i<arr.length;i++) 

document.write(arr[i] + "<br />"); 


</script> 
//JavaScript中輸出 
3中 
文_ 
3= 
g漢 

C# 
復制代碼代碼如下:

string test = "abc_123中文_d3=efg漢字%"; 
MatchCollection mc = Regex.Matches(test, @"./b."); 
foreach (Match m in mc) 

richTextBox2.Text += m.Value + "/n"; 

//C#中輸出 
3= 
字% 

Java 
復制代碼代碼如下:

String test = "abc_123中文_d3=efg漢字%"; 
String reg = ".//b."; 
Matcher m = Pattern.compile(reg).matcher(test); 
while(m.find()) 

System.out.println(m.group()); 

//Java中輸出 
3= 
字% 

可以看到,Java的輸出和.NET是一致的,“/b”在Java中是支持Unicode的。 
所以總的來說,Java中的“/w”是很奇怪的,而“/b”是與其它語言表現(xiàn)一致的,在使用時需要注意。 
4 /b應用場景 
4.1 基礎應用 
“/b”一般應用在需要匹配某一單詞字符組成的子串,但這一字符不能包含在同樣由單詞字符組成的更長的子串中。 
比如要替換掉一段英文中的單詞“to”,而“today”顯然不在替換的范圍內,所以正則可以用“/bto/b”來限定。 
用得比較多的場景是在HTML標簽的匹配中,用以區(qū)分相互包含的標簽,比如要過濾掉<b>、</b>、<p…>、<img…>等標簽,但要保留<br />標簽,正則可以寫成“<(/?b|p|img)/b[^>]*>”。 
舉例:統(tǒng)計以“,”分割的元素中“3”的個數(shù) 
string test = "137,1,33,4,3,6,21,3,35,93,2,98"; 
int count = Regex.Matches(test, @"/b3/b").Count; //結果:2 
4.2 進階應用 
稍復雜一些的應用通常都是與其它一些正則語法規(guī)則一起使用的,參考一個帖子 
求一正則表達式 
4.3 特殊情況 
“/b”用在正則中,通常情況下都是表示單詞邊界的,只有在字符組中,它表示的是退格鍵,即 
[a-z/b] 
此處的“/b”表示的是退格鍵,而不是單詞邊界
發(fā)表評論 共有條評論
用戶名: 密碼:
驗證碼: 匿名發(fā)表
主站蜘蛛池模板: 鄂伦春自治旗| 汝阳县| 固安县| 吴堡县| 新源县| 西充县| 和龙市| 永春县| 唐海县| 广平县| 惠东县| 苏州市| 彰武县| 尉氏县| 理塘县| 永靖县| 辉县市| 正阳县| 崇礼县| 峨山| 景德镇市| 宜黄县| 开江县| 呼玛县| 平利县| 纳雍县| 霍林郭勒市| 长白| 原阳县| 长武县| 行唐县| 丰都县| 奎屯市| 九寨沟县| 孟连| 高州市| 达拉特旗| 太白县| 光山县| 万荣县| 临湘市|