一区二区三区在线-一区二区三区亚洲视频-一区二区三区亚洲-一区二区三区午夜-一区二区三区四区在线视频-一区二区三区四区在线免费观看

服務器之家:專注于服務器技術及軟件下載分享
分類導航

PHP教程|ASP.NET教程|JAVA教程|ASP教程|

服務器之家 - 編程語言 - JAVA教程 - crawler4j抓取頁面使用jsoup解析html時的解決方法

crawler4j抓取頁面使用jsoup解析html時的解決方法

2019-11-18 14:34Java教程網 JAVA教程

crawler4j對response沒有指定編碼的頁面,解析成亂碼,很讓人煩惱,下面給出解決方法,需要的朋友可以參考下

crawler4j對已有編碼的頁面抓取效果不錯,用html">jsoup解析,很多會jquery的程序員都可以操作。但是,crawler4j對response沒有指定編碼的頁面,解析成亂碼,很讓人煩惱。在找了苦悶之中,無意間發現一年代已久的博文,可以解決問題,修改 Page.load() 中的 contentData 編碼即可,這讓我心中頓時舒坦了很多,接下來的問題都引刃而解了。

 

復制代碼代碼如下:

public void load(HttpEntity entity) throws Exception {
 contentType = null;  
    Header type = entity.getContentType();  
    if (type != null) {  
        contentType = type.getValue();  
    }  

    contentEncoding = null;  
    Header encoding = entity.getContentEncoding();  
    if (encoding != null) {  
        contentEncoding = encoding.getValue();  
    }  

    Charset charset = ContentType.getOrDefault(entity).getCharset();  
    if (charset != null) {  
        contentCharset = charset.displayName();   
    }else{
     contentCharset = "utf-8";
    }

   //源碼
   //contentData = EntityUtils.toByteArray(entity);  
    //修改后的代碼
    contentData = EntityUtils.toString(entity, Charset.forName("gbk")).getBytes();

}

延伸 · 閱讀

精彩推薦
主站蜘蛛池模板: 青青草在视线频久久 | 国自产拍在线天天更新91 | 成年男女免费视频 | 国内精品久久久久久野外 | 91porn最新网址 | 69成人网| 五月桃花网婷婷亚洲综合 | 日本孕妇与黑人xxxxxx | 欧美高清在线精品一区二区不卡 | 91免费精品国自产拍在线不卡 | 999jjj在线播放 | 出a级黑粗大硬长爽猛视频 吃胸膜奶视频456 | 99re热这里只有精品视频 | 欧洲vodafonewi喷潮 | 亚洲AV无码乱码在线观看浪潮 | 国产成人亚洲精品一区二区在线看 | 国产日韩一区二区三区在线播放 | 天美传媒影视在线免费观看 | 亚洲AV无码偷拍在线观看 | 国产精品久久久久久久牛牛 | 日韩天堂在线 | 2015台湾永久免费平台 | 国产午夜精品久久久久 | 精品精品国产yyy5857香蕉 | 91大神在线精品视频一区 | 亚洲日韩精品欧美一区二区 | 男人的天堂日本 | 亚洲成aⅴ人片在线 | 久久久久久久尹人综合网亚洲 | 幻女free性zoz0交 | 亚洲系列第一页 | 国产午夜亚洲精品 | 天美传媒传媒免费观看 | 午夜dj免费视频观看社区 | 国产二区视频在线观看 | 91麻豆精品国产91久久久 | 嘿嘿午夜| 爱情岛论坛亚洲一号路线 | 男同激情视频 | 亚洲国产区男人本色在线观看欧美 | 色一情|