Node.js 抓取非 utf-8 的中文網頁時會出現亂碼問題,比如網易的首頁編碼是 gb2312,抓取時會出現亂碼
request(url, function (err, res, body) {
console.log(body)
})
安裝
function request (url, callback) {
var options = {
url: url,
encoding: null,
headers: headers
}
originRequest(options, callback)
}
request(url, function (err, res, body) {
var html = iconv.decode(body, 'gb2312')
console.log(html)
})
亂碼問題解決
使用 cheerio 解析 HTML
cheerio 可以簡單粗暴的理解為服務器端 jQuery 選擇器,有了它,比正則要更加直觀許多
安裝
解決 cheerio .html() 「亂碼」問題
查閱文檔可知,可以關閉這個轉換實體編碼的功能
function request (url, callback) {
var options = {
url: url,
encoding: null,
headers: headers
}
originRequest(options, callback)
}
var url = 'http://www.163.com'
request(url, function (err, res, body) {
var html = iconv.decode(body, 'gb2312')
var $ = cheerio.load(html, {decodeEntities: false})
console.log($('h1').text())
console.log($('h1').html())
})
新聞熱點
疑難解答