国产探花免费观看_亚洲丰满少妇自慰呻吟_97日韩有码在线_资源在线日韩欧美_一区二区精品毛片,辰东完美世界有声小说,欢乐颂第一季,yy玄幻小说排行榜完本

首頁 > 編程 > .NET > 正文

正則方式的自動小偷抓網程序

2024-07-10 13:24:47
字體:
來源:轉載
供稿:網友
有一些瑕疵沒時間細化,只是實現了效果,大家看一看這個正則該怎么寫好:
URL:
內容:

復制代碼 代碼如下:


object></div></div>
</div>

<div><div>


這兩個標記之間的代碼。END標記的問題解決了,但是郁悶的是START截取的標記因為第二個DIV和第三個中間有換行,我無語了不知道怎么處理這個正則。
而且郁悶的是有多處有這種重復型標記,對正則不太熟悉,我的解決方法如下:

復制代碼 代碼如下:


MatchCollection mc = Regex.Matches(ghoPage.Trim(), @"(?<=<div class=['""]txtmsg['""]>)[/s/S]*?(?=<div class=['""]share['""]><div class=)", RegexOptions.CultureInvariant | RegexOptions.IgnoreCase);
foreach (Match mm in mc)
{
sb.Append(mc[0].Value.Substring(1933, mc[0].Value.Length - 1933));
}


我算出截取出來多處兩個FLASH廣告DIV的長度是1933,然后處理字符串截取后得到我想要的文本,這樣做的劣勢就是萬一該站改變了兩個FLASH廣告DIV的長度我獲取的數據就不是完整的呢,有興趣的研究下,看看換行的DIV正則問題怎么處理。
里面用到了自己寫的一個BUTTON控件,可以在點擊后禁止重復點擊,然后就是一些判斷,在思路上蠻不錯,可以做到一直抓取,因為不經常用就沒做成WINDOWS服務類型,這樣的程序可以做成WINDOWS服務,把規則寫在INI文件中,抓錄的規則和正則也放在配置文件中,這樣就能實現自動抓錄。

很短的代碼,對這種抓錄有興趣的朋友可以嘗試下。下載
發表評論 共有條評論
用戶名: 密碼:
驗證碼: 匿名發表
主站蜘蛛池模板: 郴州市| 博湖县| 江门市| 清苑县| 湖北省| 红桥区| 榆社县| 高平市| 浮梁县| 泰和县| 滁州市| 东宁县| 潼关县| 麦盖提县| 湟中县| 商洛市| 绥中县| 民丰县| 山东省| 扎兰屯市| 苏尼特右旗| 寿阳县| 军事| 金阳县| 林甸县| 永吉县| 嵊泗县| 南安市| 瑞金市| 内黄县| 固阳县| 项城市| 阜平县| 清远市| 株洲市| 淮北市| 蓬莱市| 微山县| 淮北市| 阿巴嘎旗| 卢龙县|