国产探花免费观看_亚洲丰满少妇自慰呻吟_97日韩有码在线_资源在线日韩欧美_一区二区精品毛片,辰东完美世界有声小说,欢乐颂第一季,yy玄幻小说排行榜完本

首頁 > 編程 > JavaScript > 正文

nodejs爬蟲遇到的亂碼問題匯總

2019-11-19 16:54:19
字體:
來源:轉載
供稿:網友

上一篇文章中使用nodejs程序解析了網頁編碼為gbk,gb2312,以及utf-8的情況,這里面有三種特殊的亂碼情況需要單獨的說明一下.

1,網頁編碼為utf-8,但是解析為亂碼,代表網站為www.guoguo-app.com。

這個問題真是個逗逼問題,查看網頁源碼中給出的編碼方式為utf8,如下:

<meta charset="UTF-8"><title>查快遞</title>

由于解析出來的始終是亂碼,我就抓包看了下,報文中的編碼方式為gbk,果然我使用gbk的方式之后,得到的不再是亂碼了。淘寶為了反爬蟲也是操碎了新,但是我也很好奇這種方式是怎么實現的,知道的告訴我。

GET / HTTP/1.1Host: www.guoguo-app.comConnection: closeHTTP/1.1 200 OKDate: Thu, 06 Apr 2017 01:56:23 GMTContent-Type: text/html;charset=GBKTransfer-Encoding: chunkedConnection: closeVary: Accept-EncodingVary: Accept-EncodingContent-Language: zh-CNServer: Tengine/Aserver

1,網頁編碼為utf-8,解析為亂碼情況二,代表網站http//andersonjiang.blog.sohu.com/

單純的查看網頁源碼看不出任何毛病,于是我又抓了一次包,得到如下情形:

GET / HTTP/1.1Host: andersonjiang.blog.sohu.comConnection: closeHTTP/1.1 200 OKContent-Type: text/html; charset=GBKTransfer-Encoding: chunkedConnection: closeServer: nginxDate: Thu, 06 Apr 2017 02:10:33 GMTVary: Accept-EncodingExpires: Thu, 01 Jan 1970 00:00:00 GMTRHOST: 192.168.110.68@11177Pragma: No-cacheCache-Control: no-cacheContent-Language: en-USContent-Encoding: gzipFSS-Cache: MISS from 13539701.18454911.21477824FSS-Proxy: Powered by 9935166.11245896.17873234

andersonjiang.blog.sohu.com這個網站同時采用了Transfer-Encoding: chunked傳輸編碼和Content-Encoding: gzip內容編碼功能,由于nodejs爬蟲沒有gzip解包功能,因此該網站提取不到任何字段,即title和charset等。要想提取此類網站則要添加gzip解包功能。

下面兩個網站www.cr173.com以及www.csdn.net是正常的抓包情況。

GET / HTTP/1.1Host: www.cr173.comConnection: closeHTTP/1.1 200 OKExpires: Thu, 06 Apr 2017 02:42:20 GMTDate: Thu, 06 Apr 2017 02:12:20 GMTContent-Type: text/htmlLast-Modified: Thu, 06 Apr 2017 00:52:42 GMTETag: "96a4141970aed21:0"Cache-Control: max-age=1800Accept-Ranges: bytesContent-Length: 158902Accept-Ranges: bytesX-Varnish: 1075189606Via: 1.1 varnishX-Via: 1.1 dxxz46:4 (Cdn Cache Server V2.0), 1.1 oudxin15:1 (Cdn Cache Server V2.0)Connection: closeGET / HTTP/1.1Host: www.csdn.netConnection: closeHTTP/1.1 200 OKServer: openrestyDate: Thu, 06 Apr 2017 02:18:59 GMTContent-Type: text/html; charset=utf-8Content-Length: 99363Connection: closeVary: Accept-EncodingLast-Modified: Thu, 06 Apr 2017 02:10:02 GMTVary: Accept-EncodingETag: "58e5a37a-18423"Accept-Ranges: bytes

3,網頁編碼為其他形式的編碼,解析為亂碼,例如:

(1)編碼為Big5,代表網站為 www.ruten.com.tw, www.ctgoodjobs.hk

(2)編碼為Shift_JIS,代表網站為www.vector.co.jp,www.smbc.co.jp

(3)編碼為windows-12,代表網站為www.tff.org,www.pravda.com.ua

(4)編碼為EUC-JP,代表網站為www.showtime.jp

(5)編碼為EUC-KR ,代表網站為www.incruit.com,www.samsunghospital.com,

由于iconv-lite的說明中支持如下的編碼方式:

Currently only a small part of encodings supported:

 All node.js native encodings: 'utf8', 'ucs2', 'ascii', 'binary', 'base64'. Base encodings: 'latin1' Cyrillic encodings: 'windows-1251', 'koi8-r', 'iso 8859-5'. Simplified chinese: 'gbk', 'gb2313'.

Other encodings are easy to add, see the source. Please, participate
因此對于上述出現的網頁編碼,只有自己添加解碼方式加以解決了。

總之要寫一個通用的爬蟲程序還有很長的路要走。

發表評論 共有條評論
用戶名: 密碼:
驗證碼: 匿名發表
主站蜘蛛池模板: 赣州市| 肃南| 镇远县| 巴中市| 隆尧县| 丰台区| 措美县| 江北区| 黄浦区| 册亨县| 云霄县| 横峰县| 乐业县| 拜泉县| 井冈山市| 神农架林区| 肇源县| 宁阳县| 南京市| 杭州市| 额尔古纳市| 凤台县| 庄河市| 肥东县| 赣榆县| 阜城县| 黄陵县| 五莲县| 治多县| 蓬莱市| 舟曲县| 锡林郭勒盟| 龙胜| 凌海市| 同江市| 桐庐县| 林芝县| 南乐县| 桦川县| 堆龙德庆县| 沈丘县|