国产探花免费观看_亚洲丰满少妇自慰呻吟_97日韩有码在线_资源在线日韩欧美_一区二区精品毛片,辰东完美世界有声小说,欢乐颂第一季,yy玄幻小说排行榜完本

首頁 > 編程 > JavaScript > 正文

Node.js抓取中文網頁亂碼問題和解決方法

2019-11-20 13:11:13
字體:
來源:轉載
供稿:網友

Node.js 抓取非 utf-8 的中文網頁時會出現亂碼問題,比如網易的首頁編碼是 gb2312,抓取時會出現亂碼

復制代碼 代碼如下:

var request = require('request') 
var url = 'http://www.163.com'

request(url, function (err, res, body) { 
    console.log(body)
})


可以使用 iconv-lite 來解決

安裝

復制代碼 代碼如下:

npm install iconv-lite 

同時我們順帶把 user-agent 修改一下,以防網站屏蔽:
復制代碼 代碼如下:

var originRequest = require('request') 
var iconv = require('iconv-lite') 
var headers = { 
  'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_10_1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/39.0.2171.65 Safari/537.36'
}

function request (url, callback) { 
  var options = {
    url: url,
    encoding: null,
    headers: headers
  }
  originRequest(options, callback)
}

request(url, function (err, res, body) { 
    var html = iconv.decode(body, 'gb2312')
    console.log(html)
})

亂碼問題解決

使用 cheerio 解析 HTML

cheerio 可以簡單粗暴的理解為服務器端 jQuery 選擇器,有了它,比正則要更加直觀許多

安裝

復制代碼 代碼如下:

npm install cheerio 
request(url, function (err, res, body) { 
    var html = iconv.decode(body, 'gb2312')
    var $ = cheerio.load(html)
    console.log($('h1').text())
    console.log($('h1').html())
})

輸出如下
復制代碼 代碼如下:

網易
网易

那么問題來了,$('h1').html() 輸出的代碼是經過 Unicode 編碼的,網易變成了网易,給我們的字符處理帶來了一些麻煩

解決 cheerio .html() 「亂碼」問題
查閱文檔可知,可以關閉這個轉換實體編碼的功能

復制代碼 代碼如下:

var $ = cheerio.load(html) 

改成
復制代碼 代碼如下:

var $ = cheerio.load(html, {decodeEntities: false})

即可,完整代碼如下:
復制代碼 代碼如下:

var originRequest = require('request') 
var cheerio = require('cheerio') 
var iconv = require('iconv-lite') 
var headers = { 
  'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_10_1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/39.0.2171.65 Safari/537.36'
}

function request (url, callback) { 
  var options = {
    url: url,
    encoding: null,
    headers: headers
  }
  originRequest(options, callback)
}

var url = 'http://www.163.com'

request(url, function (err, res, body) { 
    var html = iconv.decode(body, 'gb2312')
    var $ = cheerio.load(html, {decodeEntities: false})
    console.log($('h1').text())
    console.log($('h1').html())
})

發表評論 共有條評論
用戶名: 密碼:
驗證碼: 匿名發表
主站蜘蛛池模板: 汽车| 墨江| 马龙县| 平果县| 尚义县| 阿拉善右旗| 池州市| 中宁县| 宁海县| 格尔木市| 永嘉县| 北碚区| 九江县| 舞阳县| 六盘水市| 金乡县| 龙胜| 方城县| 彩票| 兖州市| 密云县| 新河县| 博白县| 湘阴县| 民乐县| 浦江县| 区。| 岳普湖县| 甘孜县| 旺苍县| 嵩明县| 密山市| 高青县| 蚌埠市| 林西县| 合阳县| 巍山| 文山县| 南投县| 邓州市| 浠水县|