背景
中秋的時候,一個朋友給我發了一封郵件,說他在爬鏈家的時候,發現網頁返回的代碼都是亂碼,讓我幫他參謀參謀(中秋加班,真是敬業= =!),其實這個問題我很早就遇到過,之前在爬小說的時候稍微看了一下,不過沒當回事,其實這個問題就是對編碼的理解不到位導致的。
問題
很普通的一個爬蟲代碼,代碼是這樣的:
# ecoding=utf-8import reimport requestsimport sysreload(sys)sys.setdefaultencoding('utf8')url = 'http://VeVB.COm/ershoufang/rs%E6%8B%9B%E5%95%86%E6%9E%9C%E5%B2%AD/'res = requests.get(url)print res.text目的其實很簡單,就是爬一下鏈家的內容,但是這樣執行之后,返回的結果,所有涉及到中文的內容,全部會變成亂碼,比如這樣

<script type="text/template" id="newAddHouseTpl"> <div class="newAddHouse"> 自从您上次æµè§ˆï¼ˆ<%=time%>)之åŽï¼Œè¯¥æœç´¢æ¡ä»¶ä¸‹æ 主站蜘蛛池模板: 涡阳县| 衡阳市| 嵊州市| 电白县| 贵州省| 和硕县| 图片| 宜昌市| 华坪县| 平原县| 贺兰县| 来安县| 柘荣县| 浏阳市| 广宗县| 乳山市| 东乌| 庄河市| 邓州市| 韩城市| 夹江县| 临江市| 上高县| 灵山县| 简阳市| 湖北省| 海林市| 赣州市| 内乡县| 偏关县| 富裕县| 连江县| 安仁县| 会宁县| 岚皋县| 鄯善县| 昭苏县| 成武县| 金乡县| 石城县| 昔阳县|