国产探花免费观看_亚洲丰满少妇自慰呻吟_97日韩有码在线_资源在线日韩欧美_一区二区精品毛片,辰东完美世界有声小说,欢乐颂第一季,yy玄幻小说排行榜完本

首頁 > 編程 > Python > 正文

python 采集中文亂碼問題的完美解決方法

2019-11-25 16:32:13

字體：大中小

來源：轉(zhuǎn)載

供稿：網(wǎng)友

近幾日遇到采集某網(wǎng)頁的時候大部分網(wǎng)頁OK,少部分網(wǎng)頁出現(xiàn)亂碼的問題,調(diào)試了幾日,終于發(fā)現(xiàn)了是含有一些非法字符造成的..特此記錄

1. 在正常情況下..可以用

import chardetthischarset = chardet.detect(strs)["encoding"]

來獲取該文件或頁面的編碼方式

或直接抓取頁面的charset = xxxx 來獲取

2. 遇到內(nèi)容中有特殊字符時指定的編碼一樣會造成亂碼..即內(nèi)容中非法字符造成的,可以采用編碼忽略非法字符的方式來處理.

strs = strs.decode("UTF-8","ignore").encode("UTF-8")

decode的第二個參數(shù)表示遇到非法字符時所采取的方式

該參數(shù)默認(rèn)為拋出異常.

以上就是小編為大家?guī)淼膒ython 采集中文亂碼問題的完美解決方法的全部內(nèi)容了，希望對大家有所幫助，多多支持武林網(wǎng)~

上一篇：Python黑帽編程 3.4 跨越VLAN詳解

下一篇：20招讓你的Python飛起來!

學(xué)習(xí)交流

索泰發(fā)布一款GTX 1070 Mini迷你版本:小機(jī)

索泰發(fā)布一款GTX 1070 Mini迷你版本:小機(jī)箱大愛...

熱門圖片

猜你喜歡的新聞

猜你喜歡的關(guān)注

新聞熱點(diǎn)

榮耀總裁趙明烏鎮(zhèn)演講：榮耀首款5G手機(jī)V30下月發(fā)布

2019-10-23 09:17:05

搜狐張朝陽：回歸媒體是搜狐重新崛起的關(guān)鍵

2019-10-21 09:20:02

華為輪值董事長郭平：虛擬技術(shù)創(chuàng)造現(xiàn)實(shí)價值

2019-10-21 09:00:12

滴滴英文服務(wù)上線兩周年用戶已超200萬

2019-09-26 08:57:12

華為推出全球至快AI訓(xùn)練集群Atlas900

2019-09-25 08:46:36

馬斯克：特斯拉正組建中國技術(shù)團(tuán)隊(duì)

2019-09-25 08:15:43

疑難解答

圖片精選

網(wǎng)友關(guān)注

主站蜘蛛池模板：武城县| 广丰县| 辽宁省| 沙洋县| 吉木萨尔县| 延川县| 科技| 珲春市| 兴隆县| 三门峡市| 邵东县| 梓潼县| 旺苍县| 滨海县| 宜兴市| 班玛县| 洛宁县| 右玉县| 柳江县| 成安县| 石狮市| 宜州市| 长武县| 景泰县| 龙口市| 雷波县| 洪雅县| 波密县| 西昌市| 枣阳市| 嘉定区| 教育| 通州区| 八宿县| 镇安县| 蒲江县| 平山县| 汝南县| 德保县| 福泉市| 霍城县|