一区二区三区在线-一区二区三区亚洲视频-一区二区三区亚洲-一区二区三区午夜-一区二区三区四区在线视频-一区二区三区四区在线免费观看

服務(wù)器之家:專注于服務(wù)器技術(shù)及軟件下載分享
分類導(dǎo)航

PHP教程|ASP.NET教程|Java教程|ASP教程|編程技術(shù)|正則表達式|C/C++|IOS|C#|Swift|Android|VB|R語言|JavaScript|易語言|vb.net|

服務(wù)器之家 - 編程語言 - Java教程 - Java也能做OCR!SpringBoot 整合 Tess4J 實現(xiàn)圖片文字識別

Java也能做OCR!SpringBoot 整合 Tess4J 實現(xiàn)圖片文字識別

2023-10-16 07:03未知服務(wù)器之家 Java教程

今天給大家分享一個SpringBoot整合Tess4j庫實現(xiàn)圖片文字識別的小案例,希望xdm喜歡。文末有案例代碼的Git地址,可以自己下載了去玩玩兒或繼續(xù)擴展也行。 前言 今天給大家分享一個 SpringBoot 整合 Tess4j 庫實現(xiàn)圖片文字識別的小案例

Java也能做OCR!SpringBoot 整合 Tess4J 實現(xiàn)圖片文字識別 今天給大家分享一個SpringBoot整合Tess4j庫實現(xiàn)圖片文字識別的小案例,希望xdm喜歡。文末有案例代碼的Git地址,可以自己下載了去玩玩兒或繼續(xù)擴展也行。

前言

今天給大家分享一個SpringBoot整合Tess4j庫實現(xiàn)圖片文字識別的小案例,希望xdm喜歡。

文末有案例代碼的Git地址,可以自己下載了去玩玩兒或繼續(xù)擴展也行。

話不多說,開整吧。

什么是Tess4j庫

先簡單給沒聽過的xdm解釋下,這里要分清楚TesseractTess4j的區(qū)別。

Tesseract是一個開源的光學(xué)字符識別(OCR)引擎,它可以將圖像中的文字轉(zhuǎn)換為計算機可讀的文本。支持多種語言和書面語言,并且可以在命令行中執(zhí)行。它是一個流行的開源OCR工具,可以在許多不同的操作系統(tǒng)上運行。

Tess4J是一個基于Tesseract OCR引擎的Java接口,可以用來識別圖像中的文本,說白了,就是封裝了它的API,讓Java可以直接調(diào)用。

搞清楚這倆東西,就足夠了。

案例

1、引入依賴

既然是SpringBoot,基礎(chǔ)依賴我就不贅述了,這里貼下Tess4J的依賴,是可以用maven下載的。

<!-- tess4j -->
<dependency>
    <groupId>net.sourceforge.tess4j</groupId>
    <artifactId>tess4j</artifactId>
    <version>4.5.4</version>
</dependency>

2、yml配置

這里,我特地把訓(xùn)練數(shù)據(jù)的目錄路徑配置在yml里,后續(xù)可以擴展到配置中心。

server:
  port: 8888

# 訓(xùn)練數(shù)據(jù)文件夾的路徑
tess4j:
  datapath: D:/tessdata

然后我解釋下什么是訓(xùn)練數(shù)據(jù)

Tesseract OCR庫通過訓(xùn)練數(shù)據(jù)來學(xué)習(xí)不同語言和字體的特征,以便更好地識別圖片中的文字。

在安裝Tesseract OCR庫時,通常會生成一個包含多個子文件夾的訓(xùn)練數(shù)據(jù)文件夾,其中每個子文件夾都包含了特定語言或字體的訓(xùn)練數(shù)據(jù)。

比如我這里是下載后放到了D盤的tessdata目錄下,如圖所示,其實就是一個.traineddata為后綴的文件,大小約2M多。

Java也能做OCR!SpringBoot 整合 Tess4J 實現(xiàn)圖片文字識別

如果你沒有特定的訓(xùn)練數(shù)據(jù)需求,使用默認的訓(xùn)練數(shù)據(jù)文件即可,我這里就是直接下載默認的來用的。

還有一點要注意的是,直接讀resource目錄下的路徑是讀不到的哈,所以我放到了D盤,訓(xùn)練數(shù)據(jù)本身也是更推薦放到獨立的位置,方便后續(xù)訓(xùn)練數(shù)據(jù)。

3、config配置類

我們新建一個配置類,初始化一下Tesseract類,交給Spring管理,這樣借用了Spring的單例模式。

package com.example.tesseractocr.config;

import net.sourceforge.tess4j.Tesseract;
import org.springframework.beans.factory.annotation.Value;
import org.springframework.context.annotation.Bean;
import org.springframework.context.annotation.Configuration;

/**
 * @作者: 公眾號【Java分享客?!? * @日期: 2023/10/12 22:58
 * @描述:
 */
@Configuration
public class TesseractOcrConfiguration {

   @Value("${tess4j.datapath}")
   private String dataPath;

   @Bean
   public Tesseract tesseract() {

      Tesseract tesseract = new Tesseract();
      // 設(shè)置訓(xùn)練數(shù)據(jù)文件夾路徑
      tesseract.setDatapath(dataPath);
      // 設(shè)置為中文簡體
      tesseract.setLanguage("chi_sim");
      return tesseract;
   }
}

4、service實現(xiàn)

就幾行代碼,非常簡單。

package com.example.tesseractocr.service;

import lombok.AllArgsConstructor;
import net.sourceforge.tess4j.*;
import org.springframework.stereotype.Service;
import org.springframework.web.multipart.MultipartFile;

import javax.imageio.ImageIO;
import java.awt.image.BufferedImage;
import java.io.ByteArrayInputStream;
import java.io.IOException;
import java.io.InputStream;

@Service
@AllArgsConstructor
public class OcrService {

    private final Tesseract tesseract;

   /**
    * 識別圖片中的文字
    * @param imageFile 圖片文件
    * @return 文字信息
    */
    public String recognizeText(MultipartFile imageFile) throws TesseractException, IOException {

        // 轉(zhuǎn)換
        InputStream sbs = new ByteArrayInputStream(imageFile.getBytes());
        BufferedImage bufferedImage = ImageIO.read(sbs);

        // 對圖片進行文字識別
        return tesseract.doOCR(bufferedImage);
    }
}

5、新增rest接口

我們新建一個rest接口,用來測試效果,使用上傳圖片文件的方式。

package com.example.tesseractocr.controller;

import com.example.tesseractocr.service.OcrService;
import lombok.AllArgsConstructor;
import net.sourceforge.tess4j.TesseractException;
import org.springframework.http.MediaType;
import org.springframework.web.bind.annotation.PostMapping;
import org.springframework.web.bind.annotation.RequestMapping;
import org.springframework.web.bind.annotation.RequestParam;
import org.springframework.web.bind.annotation.RestController;
import org.springframework.web.multipart.MultipartFile;

import java.io.IOException;

@RequestMapping("/api")
@RestController
@AllArgsConstructor
public class OcrController {
    private final OcrService ocrService;

    @PostMapping(value = "/recognize", consumes = MediaType.MULTIPART_FORM_DATA_VALUE)
    public String recognizeImage(@RequestParam("file") MultipartFile file) throws TesseractException, IOException {

      // 調(diào)用OcrService中的方法進行文字識別
      return ocrService.recognizeText(file);
    }
}

6、測試效果

這里我用ApiPost工具來測試下最終效果

我準備的一張圖片如下,是從知乎上隨便截取的一張。

Java也能做OCR!SpringBoot 整合 Tess4J 實現(xiàn)圖片文字識別

我們調(diào)接口試一下,這里要設(shè)置Header的Content-Type,別忘了哈。

Java也能做OCR!SpringBoot 整合 Tess4J 實現(xiàn)圖片文字識別

這里是body中的參數(shù),我們選擇form-data中的File屬性,表示以上傳文件形式來調(diào)接口。

Java也能做OCR!SpringBoot 整合 Tess4J 實現(xiàn)圖片文字識別

看下效果,其實還是挺不錯的,我和圖片比對了一下,基本上都識別出來了。

Java也能做OCR!SpringBoot 整合 Tess4J 實現(xiàn)圖片文字識別

相關(guān)地址

1)、Tesseract-ocr官方Github地址:https://github.com/tesseract-ocr/tesseract

2)、Tesseract-ocr安裝下載:https://digi.bib.uni-mannheim.de/tesseract/

PS:這里我沒有用官方Github文檔中給的地址,因為太慢了,找了一個下載比較快的,你們可以往下拉找到win64位的安裝即可,如果沒有訓(xùn)練需求,不用下也可以)

3)、訓(xùn)練文件:https://digi.bib.uni-mannheim.de/tesseract/tessdata_fast/

PS:在2)的路徑下,有一個tessdata_fast目錄,點進去就能直接下載到默認訓(xùn)練文件,這種比較簡便,省去了前面安裝下載的過程。

4)、案例代碼:https://gitee.com/fangfuji/java-share

PS:代碼放在Gitee上,在同名博文目錄里面,包含代碼+安裝文件+訓(xùn)練文件。

總結(jié)

是不是非常簡單xdm,反正我覺得挺有意思的,后面抽空再試試訓(xùn)練數(shù)據(jù)。

好了,今天的小知識,你學(xué)會了嗎?


如果喜歡,請點贊+關(guān)注↓↓↓,持續(xù)分享干貨哦!

延伸 · 閱讀

精彩推薦
主站蜘蛛池模板: 手机看片国产免费现在观看 | avtt一区 | 网站在线播放 | 亚洲欧洲色图 | 日本高清中文 | 77成人影院| 99久久精品99999久久 | 美女脱了内裤打开腿让男人图片 | 精品久久99麻豆蜜桃666 | 国产性色视频 | chinese男男gay| 天天操天天做 | 亚洲天堂成人在线观看 | 美女扒开腿让男人桶爽动态图片 | 精品国内自产拍在线视频 | 5x视频在线观看 | 奇米小说 | 欧美搞逼视频 | 乳环贵妇堕落开发调教番号 | 日本一区二区高清免费不卡 | 性free非洲老妇 | 肉蒲在线观看 | 91视频一区 | 全黄h全肉细节修仙玄幻文 全彩调教侵犯h本子全彩妖气he | 亚洲精品国产专区91在线 | 国产欧美日韩精品高清二区综合区 | 天天夜夜草草久久伊人天堂 | 丝瓜视频黄色在线观看 | 欧美18一19性高清hd4k | 国产精品热久久毛片 | 男人的j插入女人的p | 美女裆部 | 果冻传媒九一制片厂 | 日本视频在线观看播放 | 波多野结衣教师未删减版 | 91制片厂制作传媒网站破解 | 大桥未久aⅴ一区二区 | 6080午夜 | 色综合视频一区二区三区 | 久久免费国产视频 | 日韩毛片免费在线观看 |