国产探花免费观看_亚洲丰满少妇自慰呻吟_97日韩有码在线_资源在线日韩欧美_一区二区精品毛片,辰东完美世界有声小说,欢乐颂第一季,yy玄幻小说排行榜完本

首頁 > 編程 > Python > 正文

python3訪問sina首頁中文的處理方法

2020-02-23 05:11:56
字體:
來源:轉載
供稿:網友

代碼如下:
"""
如果只用普通的
import urllib.request
html = urllib.request.urlopen("http://www.sina.com").read()
print(html.decode('gbk'))

出現下面的錯誤
builtins.UnicodeDecodeError: 'gbk' codec can't decode byte 0x8b in position 1: illegal multibyte sequence

怎么辦?原來是有的網站將網頁用gzip壓縮了 。
請看下面的代碼

建議大家用python2
import urllib2
from StringIO import StringIO
import gzip

request = urllib2.Request('http://www.sina.com')
request.add_header('Accept-encoding', 'gzip')
response = urllib2.urlopen(request)
if response.info().get('Content-Encoding') == 'gzip':
    buf = StringIO( response.read())
    f = gzip.GzipFile(fileobj=buf)
    data = f.read()
print data.decode("GBK").encode('utf-8')
"""

import io
import urllib.request as r
import gzip
req = r.Request("http://www.sina.com", headers={"User-Agent": "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_9_1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/31.0.1650.63 Safari/537.36", "Accept-Encoding": "gzip"})
bs = r.urlopen(req).read()
bi = io.BytesIO(bs)
gf = gzip.GzipFile(fileobj=bi, mode="rb")
print(gf.read().decode("gbk"))

發表評論 共有條評論
用戶名: 密碼:
驗證碼: 匿名發表
主站蜘蛛池模板: 锡林浩特市| 西宁市| 钟山县| 彭山县| 黎平县| 东源县| 榆中县| 腾冲县| 竹山县| 肥西县| 德州市| 泾阳县| 响水县| 兴义市| 囊谦县| 霍州市| 黑龙江省| 长寿区| 隆安县| 高雄县| 同德县| 开阳县| 西峡县| 遵化市| 龙州县| 巴彦淖尔市| 高密市| 莲花县| 淅川县| 罗定市| 长沙县| 兴仁县| 孝昌县| 连州市| 大丰市| 香河县| 绵竹市| 休宁县| 惠东县| 会宁县| 繁峙县|