国产探花免费观看_亚洲丰满少妇自慰呻吟_97日韩有码在线_资源在线日韩欧美_一区二区精品毛片,辰东完美世界有声小说,欢乐颂第一季,yy玄幻小说排行榜完本

首頁 > 編程 > Python > 正文

python 采集中文亂碼問題的完美解決方法

2019-11-25 16:32:13
字體:
供稿:網(wǎng)友

近幾日遇到采集某網(wǎng)頁的時候大部分網(wǎng)頁OK,少部分網(wǎng)頁出現(xiàn)亂碼的問題,調(diào)試了幾日,終于發(fā)現(xiàn)了是含有一些非法字符造成的..特此記錄

1. 在正常情況下..可以用

import chardetthischarset = chardet.detect(strs)["encoding"]

來獲取該文件或頁面的編碼方式

或直接抓取頁面的charset = xxxx 來獲取

2. 遇到內(nèi)容中有特殊字符時指定的編碼一樣會造成亂碼..即內(nèi)容中非法字符造成的,可以采用編碼忽略非法字符的方式來處理.

strs = strs.decode("UTF-8","ignore").encode("UTF-8")

decode的第二個參數(shù)表示遇到非法字符時所采取的方式

該參數(shù)默認(rèn)為拋出異常.

以上就是小編為大家?guī)淼膒ython 采集中文亂碼問題的完美解決方法的全部內(nèi)容了,希望對大家有所幫助,多多支持武林網(wǎng)~

發(fā)表評論 共有條評論
用戶名: 密碼:
驗(yàn)證碼: 匿名發(fā)表
主站蜘蛛池模板: 武城县| 广丰县| 辽宁省| 沙洋县| 吉木萨尔县| 延川县| 科技| 珲春市| 兴隆县| 三门峡市| 邵东县| 梓潼县| 旺苍县| 滨海县| 宜兴市| 班玛县| 洛宁县| 右玉县| 柳江县| 成安县| 石狮市| 宜州市| 长武县| 景泰县| 龙口市| 雷波县| 洪雅县| 波密县| 西昌市| 枣阳市| 嘉定区| 教育| 通州区| 八宿县| 镇安县| 蒲江县| 平山县| 汝南县| 德保县| 福泉市| 霍城县|