国产探花免费观看_亚洲丰满少妇自慰呻吟_97日韩有码在线_资源在线日韩欧美_一区二区精品毛片,辰东完美世界有声小说,欢乐颂第一季,yy玄幻小说排行榜完本

首頁 > 編程 > .NET > 正文

asp.net正則表達式刪除指定的HTML標簽的代碼

2024-07-10 12:54:03
字體:
來源:轉載
供稿:網友

在抓取網頁的數據的時候,如果網頁按原樣顯示,它可能會因為不包含閉合的html標記而中斷格式,或者它可能會使用更混亂的html標記來中斷保留的格式,下面錯新技術頻道小編就給大家介紹asp.net正則表達式刪除指定的HTML標簽的代碼。

如果全盤刪除里面的 HTML 標簽,可能會造成閱讀上的困難(比如 a, img 這些標簽), 最好是刪除一部分,保留一部分.

正則表達式里,判斷 包含某些字符串 是非常容易理解的,但是如何判斷 不包含某些字符串 (是字符串,不是字符,是某些,不是某個) 確實是個費解的事.

復制代碼 代碼如下:

<(?!((/?/s?li)|(/?/s?ul)|(/?/s?a)|(/?/s?img)|(/?/s?br)|(/?/s?span)|(/?/s?b)))[^>]+>


這個正則是判斷HTML標簽不包含 li / ul / a / img / br / span / b 的,就上面的要求來說,是要 刪除 除這里列出的HTML標簽,這也是我摸索了很長時間才搞出來的.
(?!exp) 匹配后面跟的不是exp的位置
/?/s? 我一開始試著把它寫到最前面的 < 后面,但是測試失敗了.

下面是一個簡單的函數,把要保留的TAG串起來,生成一個正則表達式,然后把不需要的TAG刪除...

?

復制代碼 代碼如下:

?


private static string RemoveSpecifyHtml(string ctx) {
string[] holdTags = { "a", "img", "br", "strong", "b", "span" };//要保留的 tag
// <(?!((/?/s?li)|(/?/s?ul)|(/?/s?a)|(/?/s?img)|(/?/s?br)|(/?/s?span)|(/?/s?b)))[^>]+>
string regStr = string.Format(@"<(?!((/?/s?{0})))[^>]+>", string.Join(@")|(/?/s?", holdTags));
Regex reg = new Regex(regStr, RegexOptions.Compiled | RegexOptions.Multiline | RegexOptions.IgnoreCase);


return reg.Replace(ctx, "");
}


修正:
上面的正則,如果保留了 li , 實際運行會發現 link 也給保留下來了, 保留 a 會把 addr 也給保留下來, 解決辦法就是加 /b 斷言.

?

復制代碼 代碼如下:

?


<(?!((/?/s?li/b)|(/?/s?ul)|(/?/s?a/b)|(/?/s?img/b)|(/?/s?br/b)|(/?/s?span/b)|(/?/s?b/b)))[^>]+>

private static string RemoveSpecifyHtml(string ctx) {
string[] holdTags = { "a", "img", "br", "strong", "b", "span", "li" };//保留的 tag
// <(?!((/?/s?li/b)|(/?/s?ul/b)|(/?/s?a/b)|(/?/s?img/b)|(/?/s?br/b)|(/?/s?span/b)|(/?/s?b/b)))[^>]+>
string regStr = string.Format(@"<(?!((/?/s?{0})))[^>]+>", string.Join(@"/b)|(/?/s?", holdTags));
Regex reg = new Regex(regStr, RegexOptions.Compiled | RegexOptions.Multiline | RegexOptions.IgnoreCase);

return reg.Replace(ctx, "");
}

?通過上述的介紹,大家對asp.net正則表達式刪除指定的HTML標簽的代碼了解了多少呢?其實小編只是略略的講了一些,如需更多專業的知識,請咨詢錯新技術頻道。

發表評論 共有條評論
用戶名: 密碼:
驗證碼: 匿名發表
主站蜘蛛池模板: 抚宁县| 济宁市| 宜章县| 广东省| 石泉县| 嘉义县| 东平县| 遂溪县| 九江市| 略阳县| 南康市| 祁连县| 安乡县| 新龙县| 大同县| 大兴区| 北碚区| 那曲县| 威信县| 阿拉善盟| 舒城县| 徐汇区| 无锡市| 伽师县| 巴青县| 开鲁县| 兴义市| 丹江口市| 嵊泗县| 游戏| 德清县| 韩城市| 读书| 栖霞市| 永福县| 海门市| 宣武区| 临潭县| 陆丰市| 册亨县| 广南县|