国产探花免费观看_亚洲丰满少妇自慰呻吟_97日韩有码在线_资源在线日韩欧美_一区二区精品毛片,辰东完美世界有声小说,欢乐颂第一季,yy玄幻小说排行榜完本

首頁 > 編程 > Python > 正文

淺談Python爬取網頁的編碼處理

2019-11-25 16:30:11
字體:
來源:轉載
供稿:網友

背景

中秋的時候,一個朋友給我發了一封郵件,說他在爬鏈家的時候,發現網頁返回的代碼都是亂碼,讓我幫他參謀參謀(中秋加班,真是敬業= =!),其實這個問題我很早就遇到過,之前在爬小說的時候稍微看了一下,不過沒當回事,其實這個問題就是對編碼的理解不到位導致的。

問題

很普通的一個爬蟲代碼,代碼是這樣的:

# ecoding=utf-8import reimport requestsimport sysreload(sys)sys.setdefaultencoding('utf8')url = 'http://VeVB.COm/ershoufang/rs%E6%8B%9B%E5%95%86%E6%9E%9C%E5%B2%AD/'res = requests.get(url)print res.text

目的其實很簡單,就是爬一下鏈家的內容,但是這樣執行之后,返回的結果,所有涉及到中文的內容,全部會變成亂碼,比如這樣

<script type="text/template" id="newAddHouseTpl"> <div class="newAddHouse">  自从您上次浏览(<%=time%>)之后,该搜索条件下æ

主站蜘蛛池模板:
涡阳县|
衡阳市|
嵊州市|
电白县|
贵州省|
和硕县|
图片|
宜昌市|
华坪县|
平原县|
贺兰县|
来安县|
柘荣县|
浏阳市|
广宗县|
乳山市|
东乌|
庄河市|
邓州市|
韩城市|
夹江县|
临江市|
上高县|
灵山县|
简阳市|
湖北省|
海林市|
赣州市|
内乡县|
偏关县|
富裕县|
连江县|
安仁县|
会宁县|
岚皋县|
鄯善县|
昭苏县|
成武县|
金乡县|
石城县|
昔阳县|