国产探花免费观看_亚洲丰满少妇自慰呻吟_97日韩有码在线_资源在线日韩欧美_一区二区精品毛片,辰东完美世界有声小说,欢乐颂第一季,yy玄幻小说排行榜完本

首頁(yè) > 編程 > Python > 正文

解決Python網(wǎng)頁(yè)爬蟲(chóng)之中文亂碼問(wèn)題

2020-01-04 15:07:16
字體:
來(lái)源:轉(zhuǎn)載
供稿:網(wǎng)友

Python是個(gè)好工具,但是也有其固有的一些缺點(diǎn)。最近在學(xué)習(xí)網(wǎng)頁(yè)爬蟲(chóng)時(shí)就遇到了這樣一種問(wèn)題,中文網(wǎng)站爬取下來(lái)的內(nèi)容往往中文顯示亂碼。看過(guò)我之前博客的同學(xué)可能知道,之前爬取的一個(gè)學(xué)校網(wǎng)頁(yè)就出現(xiàn)了這個(gè)問(wèn)題,但是當(dāng)時(shí)并沒(méi)有解決,這著實(shí)成了我一個(gè)心病。這不,剛剛一解決就將這個(gè)方法公布與眾,大家一同分享。

首先,我說(shuō)一下Python中文亂碼的原因,Python中文亂碼是由于Python在解析網(wǎng)頁(yè)時(shí)默認(rèn)用Unicode去解析,而大多數(shù)網(wǎng)站是utf-8格式的,并且解析出來(lái)之后,python竟然再以Unicode字符格式輸出,會(huì)與系統(tǒng)編碼格式不同,導(dǎo)致中文輸出亂碼,知道原因后我們就好解決了。下面上代碼,實(shí)驗(yàn)對(duì)象仍是被人上了無(wú)數(shù)遍的百度主頁(yè)~

# -*- coding: utf-8 -*-import urllib2import reimport requestsimport sysimport urllib#設(shè)置編碼reload(sys)sys.setdefaultencoding('utf-8')#獲得系統(tǒng)編碼格式type = sys.getfilesystemencoding()r = urllib.urlopen("http://www.baidu.com")#將網(wǎng)頁(yè)以u(píng)tf-8格式解析然后轉(zhuǎn)換為系統(tǒng)默認(rèn)格式a = r.read().decode('utf-8').encode(type)print a

最后輸出效果,中文完美輸出

python,爬蟲(chóng),亂碼

以上這篇解決Python網(wǎng)頁(yè)爬蟲(chóng)之中文亂碼問(wèn)題就是小編分享給大家的全部?jī)?nèi)容了,希望能給大家一個(gè)參考,也希望大家多多支持VEVB武林網(wǎng)。


注:相關(guān)教程知識(shí)閱讀請(qǐng)移步到python教程頻道。
發(fā)表評(píng)論 共有條評(píng)論
用戶名: 密碼:
驗(yàn)證碼: 匿名發(fā)表
主站蜘蛛池模板: 衡南县| 松滋市| 白玉县| 张家口市| 兰坪| 沙洋县| 古蔺县| 宽城| 昭苏县| 怀安县| 达州市| 东光县| 庐江县| 黑水县| 诏安县| 西城区| 明水县| 长宁区| 屏东市| 潮州市| 浦县| 浙江省| 林西县| 桐梓县| 慈利县| 阿克苏市| 拉萨市| 琼海市| 房产| 泰州市| 临泽县| 彭泽县| 天峨县| 郯城县| 项城市| 遂川县| 柳林县| 南充市| 金山区| 嘉荫县| 西宁市|