中文天堂在线最新2022更新,香蕉视频国产精品,亚洲一区二区在线免费观看

maven引入獲取編碼的jar

									<dependency>

									 <groupId>com.ibm.icu</groupId>

									 <artifactId>icu4j</artifactId>

									 <version>67.1</version>

									</dependency>

獲取html">文件編碼

java" id="highlighter_772111">

									package com.lovnx.note.util;

									import com.ibm.icu.text.CharsetDetector;

									import com.ibm.icu.text.CharsetMatch;

									import org.jsoup.Jsoup;

									import org.jsoup.nodes.Document;

									import org.jsoup.select.Elements;

									import java.io.IOException;

									import java.net.URL;

									import java.nio.file.Files;

									import java.nio.file.Path;

									import java.nio.file.Paths;

									/**

									 * @author @256g的胃

									 * @ClassName HtmlParse

									 * @Description

									 * @Date 15:32 2020/7/9

									 **/

									public class HtmlParse {

									 public static String getEncode(String filePath) throws IOException {

									 Path path = Paths.get(filePath);

									 byte[] data = Files.readAllBytes(path);

									 CharsetDetector detector = new CharsetDetector();

									 detector.setText(data);

									 CharsetMatch match = detector.detect();

									 String encoding = match.getName();

									 System.out.println("The Content in " + match.getName());

									 return encoding;

									 }

									 public static void main(String[] args) throws Exception {

									 System.out.println(HtmlParse.getEncode("/Users/cxt/Downloads/test.html"));

									 }

									}

上面獲取文件編碼是為了在服務器根據文件流下載文件時防止文件亂碼直接指定編碼格式，然后再根據下載下來的文件識別純文本

Document doc = Jsoup.parse("讀取的文本字符串，此處應該是帶html標簽的");

String text = doc.text();

jsoup也支持直接指定文件的形式去獲取純文本

參考 https://jsoup.org/

補充知識：java 解析html/讀取html內容

jsoup

String 轉化

1、Document doc = Jsoup.parse(html);

例如：

									String html = "<html><head><title>First parse</title></head>"

									  + "<body><p>Parsed HTML into a doc.</p></body></html>";

									 Document doc = Jsoup.parse(html);

									 System.out.println(doc.text()); ;