国产探花免费观看_亚洲丰满少妇自慰呻吟_97日韩有码在线_资源在线日韩欧美_一区二区精品毛片,辰东完美世界有声小说,欢乐颂第一季,yy玄幻小说排行榜完本

首頁 > 學院 > 開發(fā)設計 > 正文

使用HttpWebRequest和HtmlAgilityPack抓取網(wǎng)頁(拒絕亂碼,拒絕正則表達式)

2019-11-17 03:05:09
字體:
供稿:網(wǎng)友

使用HttpWebRequest和HtmlAgilityPack抓取網(wǎng)頁(拒絕亂碼,拒絕正則表達式)

廢話不多說, 直接說需求。

公司的網(wǎng)站需要抓取其他網(wǎng)站的文章,但任務沒到我這,同事搞了一下午沒搞出來。由于剛剛到公司, 想證明下自己,就把活攬過來了。因為以前做過,覺得應該很簡單,但當我開始做的時候,我崩潰了,http請求后,得到的是字符串竟然是亂碼,然后就各種百度(谷歌一直崩潰中),最后找到了原因。由于我要抓取的網(wǎng)頁做了壓縮,所以當我抓的時候,抓過來的是壓縮后的,所以必須解壓一下,如果不解壓,不管用什么編碼方式,結果還是亂碼。直接上代碼:

1 public Encoding GetEncoding(string CharacterSet)2         {3             switch (CharacterSet)4             {5                 case "gb2312": return Encoding.GetEncoding("gb2312");6                 case "utf-8": return Encoding.UTF8;7                 default: return Encoding.Default;8             }9         }
View Code
  public string HttpGet(string url)        {            string responsestr = "";            HttpWebRequest req = HttpWebRequest.Create(url) as HttpWebRequest;            req.Accept = "*/*";            req.Method = "GET";            req.UserAgent = "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.1 (KHTML, like Gecko) Chrome/21.0.1180.89 Safari/537.1";            using (HttpWebResponse response = req.GetResponse() as HttpWebResponse)            {                Stream stream;                if (response.ContentEncoding.ToLower().Contains("gzPRessionMode.Decompress);                }                else if (response.ContentEncoding.ToLower().Contains("deflate"))                {                    stream = new DeflateStream(response.GetResponseStream(), CompressionMode.Decompress);                }                else                {                    stream = response.GetResponseStream();                }                using (StreamReader reader = new StreamReader(stream, GetEncoding(response.CharacterSet)))                {                    responsestr = reader.ReadToEnd();                    stream.Dispose();                }            }            return responsestr;        }

調(diào)用HttpGet就可以獲取網(wǎng)址的源碼了,得到源碼后, 現(xiàn)在用一個利器HtmlAgility來解析html了,不會正則不要緊,此乃神器啊。老板再也不用擔心我的正則表達式了。

至于這個神器的用法,園子文章很多,寫的也都挺詳細的,在此不贅余了。

下面是抓取園子首頁的文章列表:

 string html = HttpGet("http://m.survivalescaperooms.com/");            HtmlDocument doc = new HtmlDocument();            doc.LoaDHTML(html);            //獲取文章列表            var artlist = doc.DocumentNode.SelectNodes("http://div[@class='post_item']");            foreach (var item in artlist)            {                HtmlDocument adoc = new HtmlDocument();                adoc.LoadHtml(item.InnerHtml);                var html_a = adoc.DocumentNode.SelectSingleNode("http://a[@class='titlelnk']");                Response.Write(string.Format("標題為:{0},鏈接為:{1}<br>",html_a.InnerText,html_a.Attributes["href"].Value));            }

運行結果如圖:

打完收工。

由于時間倉促,加上本人文筆不行,如有疑問,歡迎吐槽,吐吐更健康。


發(fā)表評論 共有條評論
用戶名: 密碼:
驗證碼: 匿名發(fā)表
主站蜘蛛池模板: 沅陵县| 吴江市| 长白| 阿图什市| 伊吾县| 霍山县| 镇宁| 长武县| 视频| 滦平县| 崇信县| 南郑县| 江口县| 和平县| 隆化县| 万州区| 奇台县| 安平县| 华容县| 常山县| 肃南| 德昌县| 浦县| 黄龙县| 壶关县| 白城市| 罗源县| 天全县| 芦山县| 东宁县| 五台县| 聂荣县| 定陶县| 呼伦贝尔市| 齐齐哈尔市| 祁阳县| 玉溪市| 高阳县| 友谊县| 和顺县| 贞丰县|