一区二区三区在线-一区二区三区亚洲视频-一区二区三区亚洲-一区二区三区午夜-一区二区三区四区在线视频-一区二区三区四区在线免费观看

服務器之家:專注于服務器技術及軟件下載分享
分類導航

PHP教程|ASP.NET教程|Java教程|ASP教程|編程技術|正則表達式|C/C++|IOS|C#|Swift|Android|VB|R語言|JavaScript|易語言|vb.net|

服務器之家 - 編程語言 - Java教程 - java獲取文件編碼,jsoup獲取html純文本操作

java獲取文件編碼,jsoup獲取html純文本操作

2020-08-19 17:32256g的胃 Java教程

這篇文章主要介紹了java獲取文件編碼,jsoup獲取html純文本操作,具有很好的參考價值,希望對大家有所幫助。一起跟隨小編過來看看吧

maven引入獲取編碼的jar

?
1
2
3
4
5
<dependency>
 <groupId>com.ibm.icu</groupId>
 <artifactId>icu4j</artifactId>
 <version>67.1</version>
</dependency>

獲取html">文件編碼

java" id="highlighter_772111">
?
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
package com.lovnx.note.util;
import com.ibm.icu.text.CharsetDetector;
import com.ibm.icu.text.CharsetMatch;
import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.select.Elements;
 
import java.io.IOException;
import java.net.URL;
import java.nio.file.Files;
import java.nio.file.Path;
import java.nio.file.Paths;
 
/**
 * @author @256g的胃
 * @ClassName HtmlParse
 * @Description
 * @Date 15:32 2020/7/9
 **/
public class HtmlParse {
 
 public static String getEncode(String filePath) throws IOException {
 
 Path path = Paths.get(filePath);
 byte[] data = Files.readAllBytes(path);
 
 CharsetDetector detector = new CharsetDetector();
 detector.setText(data);
 CharsetMatch match = detector.detect();
 String encoding = match.getName();
 System.out.println("The Content in " + match.getName());
 return encoding;
 }
 public static void main(String[] args) throws Exception {
 System.out.println(HtmlParse.getEncode("/Users/cxt/Downloads/test.html"));
 }
}

上面獲取文件編碼是為了在服務器根據文件流下載文件時防止文件亂碼直接指定編碼格式,然后再根據下載下來的文件識別純文本

Document doc = Jsoup.parse("讀取的文本字符串,此處應該是帶html標簽的");

String text = doc.text();

jsoup也支持 直接指定文件的形式去獲取純文本

參考 https://jsoup.org/

補充知識:java 解析html/讀取html內容

jsoup

String 轉化

1、Document doc = Jsoup.parse(html);

例如:

?
1
2
3
4
String html = "<html><head><title>First parse</title></head>"
  + "<body><p>Parsed HTML into a doc.</p></body></html>";
 Document doc = Jsoup.parse(html);
 System.out.println(doc.text()); ;

常用api

2、獲取節點文本:Document.text();

以上這篇java獲取文件編碼,jsoup獲取html純文本操作就是小編分享給大家的全部內容了,希望能給大家一個參考,也希望大家多多支持服務器之家。

原文鏈接:https://blog.csdn.net/C1041067258/article/details/107537060

延伸 · 閱讀

精彩推薦
主站蜘蛛池模板: jj视频免费观看 | 91精品手机国产在线观 | 国产亚洲精品日韩香蕉网 | 亚洲不卡视频在线观看 | 成人免费网站视频ww | 日本人和黑人一级纶理片 | 亚洲国产精品自在自线观看 | 万域之王动漫在线观看全集免费播放 | 国产在线麻豆波多野结衣 | 国色天香论坛社区在线视频 | 日本强不卡在线观看 | 国产高清视频 | 欧洲另类一二三四区 | 亚洲精品电影天堂网 | 精品视频一区二区观看 | 韩国最新三级网站在线播放 | 免费网站直接进入 | haodiaocao的视频这里看 | 91视频夜色 | 日本漫画被黄漫免费动 | 亚洲伦理影院 | 亚洲成在人线久久综合 | 午夜精品免费 | 91精品久久一区二区三区 | 洗濯屋H纯肉动漫在线观看 武侠艳妇屈辱的张开双腿 午夜在线观看免费观看 视频 | 精品视频免费在线 | 亚洲无人区乱码中文字幕 | 亚洲精品色婷婷在线影院麻豆 | 九九精品免视看国产成人 | 免费精品国产 | 亚洲国产在线午夜视频无 | 2019nv天堂| 村上里沙40分钟在线观看 | 亚洲一区二区三区91 | 亚州成人 | 国产在线观看网站 | jzzjzz视频免费播放 | 亚洲天堂伦理 | 福利社在线免费观看 | 精品国产成a人在线观看 | 男人的天堂在线观看视频不卡 |