国产探花免费观看_亚洲丰满少妇自慰呻吟_97日韩有码在线_资源在线日韩欧美_一区二区精品毛片,辰东完美世界有声小说,欢乐颂第一季,yy玄幻小说排行榜完本

首頁 > 編程 > Python > 正文

python3訪問sina首頁中文的處理方法

2019-11-25 18:30:28
字體:
來源:轉載
供稿:網友

復制代碼 代碼如下:

"""
如果只用普通的
import urllib.request
html = urllib.request.urlopen("http://www.sina.com").read()
print(html.decode('gbk'))

出現下面的錯誤
builtins.UnicodeDecodeError: 'gbk' codec can't decode byte 0x8b in position 1: illegal multibyte sequence

怎么辦?原來是有的網站將網頁用gzip壓縮了 。
請看下面的代碼

建議大家用python2
import urllib2
from StringIO import StringIO
import gzip

request = urllib2.Request('http://www.sina.com')
request.add_header('Accept-encoding', 'gzip')
response = urllib2.urlopen(request)
if response.info().get('Content-Encoding') == 'gzip':
    buf = StringIO( response.read())
    f = gzip.GzipFile(fileobj=buf)
    data = f.read()
print data.decode("GBK").encode('utf-8')
"""

import io
import urllib.request as r
import gzip
req = r.Request("http://www.sina.com", headers={"User-Agent": "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_9_1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/31.0.1650.63 Safari/537.36", "Accept-Encoding": "gzip"})
bs = r.urlopen(req).read()
bi = io.BytesIO(bs)
gf = gzip.GzipFile(fileobj=bi, mode="rb")
print(gf.read().decode("gbk"))

發表評論 共有條評論
用戶名: 密碼:
驗證碼: 匿名發表
主站蜘蛛池模板: 宜章县| 平果县| 宜昌市| 沾益县| 巴马| 阿坝县| 双牌县| 阳春市| 雅江县| 文登市| 洪江市| 浮山县| 乐亭县| 和田县| 凤山县| 兖州市| 兴宁市| 堆龙德庆县| 那坡县| 望谟县| 定南县| 陇南市| 达拉特旗| 南宫市| 巨鹿县| 如东县| 太仓市| 汶上县| 浑源县| 江西省| 喀什市| 石渠县| 泰兴市| 岳阳县| 五原县| 边坝县| 建昌县| 富阳市| 蓬莱市| 建昌县| 台江县|