国产探花免费观看_亚洲丰满少妇自慰呻吟_97日韩有码在线_资源在线日韩欧美_一区二区精品毛片,辰东完美世界有声小说,欢乐颂第一季,yy玄幻小说排行榜完本

首頁 > 編程 > Python > 正文

記錄使用python時遇到的中文 編碼問題與解決方法

2019-11-06 07:54:56
字體:
供稿:網(wǎng)友

記錄使用python時遇到的中文 編碼問題與解決方法

剛接觸python時,師兄就教導(dǎo)我們在每個py文件的第一行要加上# coding=utf-8這句話啦

在一開始的處理時并沒有遇到問題,可隨著處理的東西越來越多,各種各樣的問題就出現(xiàn)了,為了盡量避免這些問題首先是把Pycharm的編碼統(tǒng)一了,如圖

如果是處理獲取到的網(wǎng)頁源代碼,不要偷懶,先看看源代碼的編碼,就像下圖中的charset=一般來說就是它的編碼了 如果網(wǎng)頁源代碼的編碼和自己編譯器的不同,會出現(xiàn)中文亂碼,那么該怎么解決呢?假設(shè)網(wǎng)頁源代碼是GB2312而想要的是utf-8,則可以用這句代碼 s.decode('GB2312').encode('utf-8') 因為字符串在Python內(nèi)部的表示是unicode編碼. 因此,在做編碼轉(zhuǎn)換時,通常需要以unicode作為中間編碼,即先將其他編碼的字符串解碼(decode)成unicode,再從unicode編碼(encode)成另一種編碼。

可是!就是有些網(wǎng)頁啊~口不對心,charset顯示的編碼和實際編碼跟不一樣,怪不得有UnicodeEncodeError[捂臉] 這時候就可以用下面的代碼來查看字符串的真實編碼,然后再decode和encode就好啦

import chardetPRint chardet.detect(data) # data是未知編碼的字符串
發(fā)表評論 共有條評論
用戶名: 密碼:
驗證碼: 匿名發(fā)表
主站蜘蛛池模板: 江源县| 铜山县| 弥渡县| 宁津县| 山阴县| 馆陶县| 突泉县| 永春县| 伽师县| 绥中县| 辽源市| 江华| 宣化县| 林周县| 会理县| 冕宁县| 宝丰县| 监利县| 清苑县| 丘北县| 齐河县| 芦山县| 七台河市| 泸西县| 定结县| 加查县| 咸宁市| 绥宁县| 靖边县| 平遥县| 化德县| 棋牌| 台东市| 镇安县| 普宁市| 大安市| 凤阳县| 茂名市| 西昌市| 嘉鱼县| 临安市|