問題: 網(wǎng)爬工具中自動搜集頁面信息時,有的頁面出現(xiàn)了出現(xiàn)亂碼現(xiàn)象 原因: 讀取頁面信息是使用了錯誤的編碼類型。C#.NET從現(xiàn)在的類中獲取得來的編碼信息有時是錯誤的,本人認(rèn)為對不是asp.net的應(yīng)用程序,它讀過來的編碼信息都是錯誤的。 解決: 思路:必須先在運(yùn)行時獲取得該頁面的編碼,再去讀取頁面的內(nèi)容,這樣得來的頁面內(nèi)容才不會出現(xiàn)亂碼現(xiàn)象。 方法: 1:使用ASCII編碼去讀取頁面內(nèi)容。 2:使用正則表達(dá)式從讀取的頁面內(nèi)容中篩選出頁面的編碼信息。上個步驟獲取的頁面信息可能會有亂碼。但Html標(biāo)志是正確的,所有可以從HTML標(biāo)志中得到編碼的信息。 3.用正確的編碼類型去讀取頁面信息。 假如哪位有更好的方法,請多賜教啊! 下面附上代碼: 代碼演示 using System; using System.Collections.Generic; using System.Text; using System.Net; using System.Web; using System.IO; using System.Text.RegularEXPRessions; namespace charset { class Program {