国产探花免费观看_亚洲丰满少妇自慰呻吟_97日韩有码在线_资源在线日韩欧美_一区二区精品毛片,辰东完美世界有声小说,欢乐颂第一季,yy玄幻小说排行榜完本

首頁 > 編程 > Python > 正文

判斷網頁編碼的方法python版

2019-11-25 16:37:11
字體:
來源:轉載
供稿:網友

在web開發的時候我們經常會遇到網頁抓取和分析,各種語言都可以完成這個功能。我喜歡用python實現,因為python提供了很多成熟的模塊,可以很方便的實現網頁抓取。
但是在抓取過程中會遇到編碼的問題,那今天我們來看一下如何判斷網頁的編碼:
網上很多網頁的編碼格式都不一樣,大體上是GBK,GB2312,UTF-8等。
我們在獲取網頁的的數據后,先要對網頁的編碼進行判斷,才能把抓取的內容的編碼統一轉換為我們能夠處理的編碼,避免亂碼問題的出現。

下面介紹兩種判斷網頁編碼的方法:

總結:第二個方法很準確,在網頁編碼分析的時候用python模塊分析內容是最準確的,而使用分析meta頭信息的方法是不太準確的。

方法一:使用urllib模塊的getparam方法    

import urllib#autor:pythontab.comfopen1 = urllib.urlopen('http://www.baidu.com').info()print fopen1.getparam('charset')# baidu

方法二:使用chardet模塊    

#如果你的python沒有安裝chardet模塊,你需要首先安裝一下chardet判斷編碼的模塊哦 #author:pythontab.comimport chardet import urllib#先獲取網頁內容data1 = urllib.urlopen('http://www.baidu.com').read()#用chardet進行內容分析chardit1 = chardet.detect(data1) print chardit1['encoding'] # baidu

以上就是本文的全部內容,希望對大家的學習有所幫助,也希望大家多多支持武林網。

發表評論 共有條評論
用戶名: 密碼:
驗證碼: 匿名發表
主站蜘蛛池模板: 简阳市| 宝山区| 黑山县| 民和| 鹿泉市| 天台县| 绥芬河市| 胶南市| 屯门区| 岑溪市| 望都县| 龙岩市| 锡林郭勒盟| 从江县| 闸北区| 太仆寺旗| 贡山| 象州县| 滨州市| 安庆市| 贵阳市| 和平县| 侯马市| 巴南区| 长宁区| 新津县| 天祝| 南安市| 塘沽区| 滁州市| 敦化市| 象山县| 福泉市| 阳新县| 福安市| 吉木萨尔县| 湘潭县| 辉县市| 拉萨市| 法库县| 金寨县|