国产探花免费观看_亚洲丰满少妇自慰呻吟_97日韩有码在线_资源在线日韩欧美_一区二区精品毛片,辰东完美世界有声小说,欢乐颂第一季,yy玄幻小说排行榜完本

首頁 > 編程 > Python > 正文

解決Python網頁爬蟲之中文亂碼問題

2020-02-23 00:05:02
字體:
來源:轉載
供稿:網友

Python是個好工具,但是也有其固有的一些缺點。最近在學習網頁爬蟲時就遇到了這樣一種問題,中文網站爬取下來的內容往往中文顯示亂碼??催^我之前博客的同學可能知道,之前爬取的一個學校網頁就出現了這個問題,但是當時并沒有解決,這著實成了我一個心病。這不,剛剛一解決就將這個方法公布與眾,大家一同分享。

首先,我說一下Python中文亂碼的原因,Python中文亂碼是由于Python在解析網頁時默認用Unicode去解析,而大多數網站是utf-8格式的,并且解析出來之后,python竟然再以Unicode字符格式輸出,會與系統編碼格式不同,導致中文輸出亂碼,知道原因后我們就好解決了。下面上代碼,實驗對象仍是被人上了無數遍的百度主頁~

# -*- coding: utf-8 -*-import urllib2import reimport requestsimport sysimport urllib#設置編碼reload(sys)sys.setdefaultencoding('utf-8')#獲得系統編碼格式type = sys.getfilesystemencoding()r = urllib.urlopen("http://www.baidu.com")#將網頁以utf-8格式解析然后轉換為系統默認格式a = r.read().decode('utf-8').encode(type)print a

最后輸出效果,中文完美輸出

以上這篇解決Python網頁爬蟲之中文亂碼問題就是小編分享給大家的全部內容了,希望能給大家一個參考,也希望大家多多支持武林站長站。

發表評論 共有條評論
用戶名: 密碼:
驗證碼: 匿名發表
主站蜘蛛池模板: 元江| 延长县| 神农架林区| 镇宁| 崇义县| 蛟河市| 府谷县| 郸城县| 安塞县| 耒阳市| 中牟县| 泰安市| 大悟县| 平武县| 兴安县| 高淳县| 蓝田县| 德惠市| 安远县| 增城市| 嘉禾县| 镇赉县| 颍上县| 温宿县| 江都市| 获嘉县| 黄浦区| 靖西县| 白河县| 盐津县| 安仁县| 张家川| 岚皋县| 嘉鱼县| 丹东市| 岳池县| 星座| 额尔古纳市| 蕲春县| 祁门县| 河南省|