淺談Python爬取網頁的編碼處理

2019-11-25 16:30:11

字體：大中小

來源：轉載

供稿：網友

背景

中秋的時候，一個朋友給我發了一封郵件，說他在爬鏈家的時候，發現網頁返回的代碼都是亂碼，讓我幫他參謀參謀(中秋加班，真是敬業= =！)，其實這個問題我很早就遇到過，之前在爬小說的時候稍微看了一下，不過沒當回事，其實這個問題就是對編碼的理解不到位導致的。

問題

很普通的一個爬蟲代碼，代碼是這樣的：

# ecoding=utf-8import reimport requestsimport sysreload(sys)sys.setdefaultencoding('utf8')url = 'http://VeVB.COm/ershoufang/rs%E6%8B%9B%E5%95%86%E6%9E%9C%E5%B2%AD/'res = requests.get(url)print res.text

目的其實很簡單，就是爬一下鏈家的內容，但是這樣執行之后，返回的結果，所有涉及到中文的內容，全部會變成亂碼，比如這樣

<script type="text/template" id="newAddHouseTpl"> <div class="newAddHouse">  è‡ªä»Žæ‚¨ä¸Šæ¬¡æµè§ˆï¼ˆ<%=time%>ï¼‰ä¹‹åŽï¼Œè¯¥æœç´¢æ¡ä»¶ä¸‹æ

感谢您访问我们的网站，您可能还对以下资源感兴趣：
国产探花免费观看_亚洲丰满少妇自慰呻吟_97日韩有码在线_资源在线日韩欧美_一区二区精品毛片









主站蜘蛛池模板：
涡阳县|
衡阳市|
嵊州市|
电白县|
贵州省|
和硕县|
图片|
宜昌市|
华坪县|
平原县|
贺兰县|
来安县|
柘荣县|
浏阳市|
广宗县|
乳山市|
东乌|
庄河市|
邓州市|
韩城市|
夹江县|
临江市|
上高县|
灵山县|
简阳市|
湖北省|
海林市|
赣州市|
内乡县|
偏关县|
富裕县|
连江县|
安仁县|
会宁县|
岚皋县|
鄯善县|
昭苏县|
成武县|
金乡县|
石城县|
昔阳县|

国产探花免费观看_亚洲丰满少妇自慰呻吟_97日韩有码在线_资源在线日韩欧美_一区二区精品毛片,辰东完美世界有声小说,欢乐颂第一季,yy玄幻小说排行榜完本

淺談Python爬取網頁的編碼處理