国产探花免费观看_亚洲丰满少妇自慰呻吟_97日韩有码在线_资源在线日韩欧美_一区二区精品毛片,辰东完美世界有声小说,欢乐颂第一季,yy玄幻小说排行榜完本

首頁(yè) > 編程 > Java > 正文

crawler4j抓取頁(yè)面使用jsoup解析html時(shí)的解決方法

2019-11-26 15:33:47
字體:
供稿:網(wǎng)友

crawler4j對(duì)已有編碼的頁(yè)面抓取效果不錯(cuò),用jsoup解析,很多會(huì)jquery的程序員都可以操作。但是,crawler4j對(duì)response沒有指定編碼的頁(yè)面,解析成亂碼,很讓人煩惱。在找了苦悶之中,無意間發(fā)現(xiàn)一年代已久的博文,可以解決問題,修改 Page.load() 中的 contentData 編碼即可,這讓我心中頓時(shí)舒坦了很多,接下來的問題都引刃而解了。

復(fù)制代碼 代碼如下:

public void load(HttpEntity entity) throws Exception {
 contentType = null; 
    Header type = entity.getContentType(); 
    if (type != null) { 
        contentType = type.getValue(); 
    } 

    contentEncoding = null; 
    Header encoding = entity.getContentEncoding(); 
    if (encoding != null) { 
        contentEncoding = encoding.getValue(); 
    } 

    Charset charset = ContentType.getOrDefault(entity).getCharset(); 
    if (charset != null) { 
        contentCharset = charset.displayName();  
    }else{
     contentCharset = "utf-8";
    }

   //源碼
   //contentData = EntityUtils.toByteArray(entity); 
    //修改后的代碼
    contentData = EntityUtils.toString(entity, Charset.forName("gbk")).getBytes();

}

發(fā)表評(píng)論 共有條評(píng)論
用戶名: 密碼:
驗(yàn)證碼: 匿名發(fā)表
主站蜘蛛池模板: 大田县| 黑水县| 大厂| 鄂温| 北流市| 区。| 嘉义市| 宁德市| 措美县| 浮梁县| 西丰县| 德昌县| 礼泉县| 桑日县| 铜鼓县| 汉沽区| 姜堰市| 柳河县| 景德镇市| 锦州市| 八宿县| 东安县| 旌德县| 邢台市| 铅山县| 射洪县| 疏勒县| 宿迁市| 镇赉县| 清原| 英吉沙县| 寿宁县| 高平市| 邵武市| 武城县| 寿阳县| 大石桥市| 乌兰察布市| 金阳县| 三门县| 高邑县|