一区二区三区在线-一区二区三区亚洲视频-一区二区三区亚洲-一区二区三区午夜-一区二区三区四区在线视频-一区二区三区四区在线免费观看

服務(wù)器之家:專注于服務(wù)器技術(shù)及軟件下載分享
分類導(dǎo)航

PHP教程|ASP.NET教程|Java教程|ASP教程|編程技術(shù)|正則表達(dá)式|C/C++|IOS|C#|Swift|Android|VB|R語言|JavaScript|易語言|vb.net|

服務(wù)器之家 - 編程語言 - Java教程 - Selenium+Tesseract-OCR智能識別驗(yàn)證碼爬取網(wǎng)頁數(shù)據(jù)的實(shí)例

Selenium+Tesseract-OCR智能識別驗(yàn)證碼爬取網(wǎng)頁數(shù)據(jù)的實(shí)例

2022-01-20 01:02大數(shù)據(jù)智工廠 Java教程

本文主要介紹了Selenium+Tesseract-OCR智能識別驗(yàn)證碼爬取網(wǎng)頁數(shù)據(jù),文中通過示例代碼介紹的非常詳細(xì),具有一定的參考價值,感興趣的小伙伴們可以參考一下

1.項(xiàng)目需求描述

通過訂單號獲取某系統(tǒng)內(nèi)訂單的詳細(xì)數(shù)據(jù),不需要賬號密碼的登錄驗(yàn)證,但有圖片驗(yàn)證碼的動態(tài)識別,將獲取到的數(shù)據(jù)存到數(shù)據(jù)庫。

2.整體思路

  1.通過Selenium技術(shù),無窗口模式打開瀏覽器

  2.在輸入框中動態(tài)輸入訂單號

  3.將圖片驗(yàn)證碼截圖保存到本地

  4.通過Tesseract-OCR技術(shù)去本地識別驗(yàn)證碼轉(zhuǎn)化為文字

  5.將獲取的驗(yàn)證碼輸入輸入框

  6.點(diǎn)擊查詢獲取列表數(shù)據(jù)

3.功能實(shí)現(xiàn)

1.下載并安裝Google瀏覽器,安裝Google驅(qū)動chromedriver.exe,獲取安裝路徑,配置在項(xiàng)目中

2.使用Selenium進(jìn)行瀏覽器操作

?
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
System.setProperty(瀏覽器驅(qū)動, 瀏覽器驅(qū)動安裝位置);
ChromeOptions options = new ChromeOptions();
options.addArguments("--headless");                            // 無窗口模式
options.addArguments("--disable-infobars");                    // 禁言消息條
options.addArguments("--disable-extensions");                  // 禁用插件
options.addArguments("--disable-gpu");                         // 禁用GPU
options.addArguments("--no-sandbox");                          // 禁用沙盒模式
options.addArguments("--disable-dev-shm-usage");
options.addArguments("--hide-scrollbars");                     // 隱藏滾動條
 
WebDriver driver = new ChromeDriver(options);
driver.get(爬取網(wǎng)站URL);
driver.manage().window().setSize(new Dimension(450, 260));     // 設(shè)置游覽器打開后調(diào)整大小
try {
    // 保存IMG圖片到本地
    saveImgToLocal(driver);
    Thread.sleep(2000);
    // OCR智能識別驗(yàn)證碼
    String codeByOCR = getCodeByOCR();
    if (codeByOCR != null) {
        try {
            WebElement input1 = driver.findElement(By.id(TEXTBOX1));
            input1.sendKeys(code);
            WebElement input2 = driver.findElement(By.id(TEXTBOX2));
            input2.sendKeys(codeByOCR);
            // 獲取table數(shù)據(jù)
            WebElement addButton = driver.findElement(By.id(SELECT_BUTTON));
            addButton.click();
            List<WebElement> tRCollection = driver.findElement(By.id(TABLE_ID)).findElements(By.tagName("tr"));
            for (int t = 1; t < tRCollection.size(); t++) {
                List<WebElement> tDCollection = tRCollection.get(t).findElements(By.tagName("td"));
                VipLogisticsMinHangDetailVo minHangDetailVo = new VipLogisticsMinHangDetailVo();
                minHangDetailVo.setLogistics_number(code);
                for (int i = 0; i < tDCollection.size(); i++) {
                    String text = tDCollection.get(i).getText();
                    switch (i) {
                        case 0:
                            minHangDetailVo.setTime(text);
                        case 1:
                            minHangDetailVo.setOutlet(text);
                        case 2:
                            minHangDetailVo.setOrganization(text);
                        case 3:
                            minHangDetailVo.setEvent(text);
                        case 4:
                            minHangDetailVo.setDetail(text);
                    }
                }
                list.add(minHangDetailVo);
            }
            log.info("驗(yàn)證碼識別成功!");
        } catch (Exception e) {
            if (e.toString().contains("錯誤提示:驗(yàn)證碼錯誤或已過期!")) {
                log.error("驗(yàn)證碼識別錯誤!" + e.toString());
            } else if (e.toString().contains("錯誤提示:請輸入驗(yàn)證碼!")) {
                log.error("未輸入驗(yàn)證碼!:" + e.toString());
            } else {
                log.error("其他異常:" + e.toString());
            }
        }
    }
    driver.quit();
} catch (Exception e) {
    e.printStackTrace();
}

3.將圖片驗(yàn)證碼截圖保存到本地(截屏法)

?
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
private void saveImgToLocal(WebDriver driver) {
    WebElement element = driver.findElement(By.id(img元素ID));
    //創(chuàng)建全屏截圖
    WrapsDriver wrapsDriver = (WrapsDriver) element;
    File screen = ((TakesScreenshot) wrapsDriver.getWrappedDriver()).getScreenshotAs(OutputType.FILE);
    try {
        BufferedImage image = ImageIO.read(screen);
        //創(chuàng)建一個矩形使用上面的高度,和寬度
        Point p = element.getLocation();
        //元素坐標(biāo)
        BufferedImage img = image.getSubimage(p.getX(), p.getY(), element.getSize().getWidth(), element.getSize().getHeight());
        ImageIO.write(img, "png", screen);
 
        FileUtils.copyFile(screen, new File(保存本地地址 + "imgname.png"));
    } catch (IOException e) {
        e.printStackTrace();
    }
}

4.將圖片驗(yàn)證碼保存到本地(鼠標(biāo)法)

?
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
private static void saveImgToLocal1(WebDriver driver) {
    Actions action = new Actions(driver);
    action.contextClick(driver.findElement(By.id(img元素ID))).build().perform();
    try {
        Robot robot = new Robot();
        Thread.sleep(1000);
 
        robot.keyPress(KeyEvent.VK_DOWN);
        Thread.sleep(1000);
 
        robot.keyPress(KeyEvent.VK_DOWN);
        Thread.sleep(1000);
 
        robot.keyPress(KeyEvent.VK_ENTER);
        Thread.sleep(1000);
        //釋放向下鍵,不然在此之前的條目將起作用
        robot.keyRelease(KeyEvent.VK_DOWN);
        Thread.sleep(1000);
        //運(yùn)行保存
        Runtime.getRuntime().exec(SAVE_IMG_EXE);
        Thread.sleep(10000);
    } catch (Exception e) {
        e.printStackTrace();
    }
}

5.對本地驗(yàn)證碼進(jìn)行OCR識別

?
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
private String getCodeByOCR() {
    String result = null;
    File file = new File(本地圖片地址);
    if (!file.exists()) {
        if (systemFalg != 1) {
            file.setWritable(true, false);
        }
        file.mkdirs();
    }
    File imageFile = new File(本地圖片地址 + "imgname.png");
    if (imageFile.exists()) {
        ITesseract instance = new Tesseract();
        instance.setDatapath(tessdata存放地址);
        try {
            String doOCR = instance.doOCR(imageFile);
            result = replaceBlank(doOCR);
            log.info("解析的驗(yàn)證碼為:{}", result != null ? result : "為空!");
        } catch (Exception e) {
            e.printStackTrace();
            log.error("解析驗(yàn)證碼異常!");
        }
    } else {
        log.error("解析驗(yàn)證碼的文件不存在!");
    }
    return result;
}

綜上,該網(wǎng)頁的數(shù)據(jù)就可以獲取了。

到此這篇關(guān)于Selenium+Tesseract-OCR智能識別驗(yàn)證碼爬取網(wǎng)頁數(shù)據(jù)的實(shí)例的文章就介紹到這了,更多相關(guān)Selenium+Tesseract-OCR智能識別驗(yàn)證碼爬取 內(nèi)容請搜索服務(wù)器之家以前的文章或繼續(xù)瀏覽下面的相關(guān)文章希望大家以后多多支持服務(wù)器之家!

原文鏈接:https://www.cnblogs.com/zhaohadoopone/p/15338813.html

延伸 · 閱讀

精彩推薦
  • Java教程xml與Java對象的轉(zhuǎn)換詳解

    xml與Java對象的轉(zhuǎn)換詳解

    這篇文章主要介紹了xml與Java對象的轉(zhuǎn)換詳解的相關(guān)資料,需要的朋友可以參考下...

    Java教程網(wǎng)2942020-09-17
  • Java教程Java實(shí)現(xiàn)搶紅包功能

    Java實(shí)現(xiàn)搶紅包功能

    這篇文章主要為大家詳細(xì)介紹了Java實(shí)現(xiàn)搶紅包功能,采用多線程模擬多人同時搶紅包,文中示例代碼介紹的非常詳細(xì),具有一定的參考價值,感興趣的小伙...

    littleschemer13532021-05-16
  • Java教程Java使用SAX解析xml的示例

    Java使用SAX解析xml的示例

    這篇文章主要介紹了Java使用SAX解析xml的示例,幫助大家更好的理解和學(xué)習(xí)使用Java,感興趣的朋友可以了解下...

    大行者10067412021-08-30
  • Java教程Java8中Stream使用的一個注意事項(xiàng)

    Java8中Stream使用的一個注意事項(xiàng)

    最近在工作中發(fā)現(xiàn)了對于集合操作轉(zhuǎn)換的神器,java8新特性 stream,但在使用中遇到了一個非常重要的注意點(diǎn),所以這篇文章主要給大家介紹了關(guān)于Java8中S...

    阿杜7482021-02-04
  • Java教程升級IDEA后Lombok不能使用的解決方法

    升級IDEA后Lombok不能使用的解決方法

    最近看到提示IDEA提示升級,尋思已經(jīng)有好久沒有升過級了。升級完畢重啟之后,突然發(fā)現(xiàn)好多錯誤,本文就來介紹一下如何解決,感興趣的可以了解一下...

    程序猿DD9332021-10-08
  • Java教程20個非常實(shí)用的Java程序代碼片段

    20個非常實(shí)用的Java程序代碼片段

    這篇文章主要為大家分享了20個非常實(shí)用的Java程序片段,對java開發(fā)項(xiàng)目有所幫助,感興趣的小伙伴們可以參考一下 ...

    lijiao5352020-04-06
  • Java教程Java BufferWriter寫文件寫不進(jìn)去或缺失數(shù)據(jù)的解決

    Java BufferWriter寫文件寫不進(jìn)去或缺失數(shù)據(jù)的解決

    這篇文章主要介紹了Java BufferWriter寫文件寫不進(jìn)去或缺失數(shù)據(jù)的解決方案,具有很好的參考價值,希望對大家有所幫助。如有錯誤或未考慮完全的地方,望...

    spcoder14552021-10-18
  • Java教程小米推送Java代碼

    小米推送Java代碼

    今天小編就為大家分享一篇關(guān)于小米推送Java代碼,小編覺得內(nèi)容挺不錯的,現(xiàn)在分享給大家,具有很好的參考價值,需要的朋友一起跟隨小編來看看吧...

    富貴穩(wěn)中求8032021-07-12
主站蜘蛛池模板: 超91在线 | 国产精品日本一区二区三区在线看 | 九九久久精品 | 亚洲欧美久久婷婷爱综合一区天堂 | 大伊香蕉精品二区视频在线 | 日韩精品亚洲专区在线影视 | 四虎1515hhh co m| 久久精品视频在线看 | 国产理论片在线观看 | aaa一级最新毛片 | 色久久一个亚洲综合网 | 免费十几分视频 | 国产成人无精品久久久 | 国产剧情一区二区三区 | 青青草原免费在线视频 | 亚洲精品国产一区二区第一页 | 天美网站传媒入口网址 | 校花的第一次好紧好爽 | 国产自拍专区 | 波多野给衣一区二区三区 | 无限在线观看免费入口 | 国产一区二区三区久久小说 | 亚洲AV永久无码精品澳门 | xxxxxx性受 | h版小说| 亚洲AV久久无码精品九号软件 | 午夜无码片在线观看影院 | chinesezoozvideos | 午夜无码片在线观看影院 | 亚洲成A人片在线观看中文L | 亚洲欧美优优色在线影院 | 鄂州一家三口完整版免费 | 国产在线麻豆波多野结衣 | 精品久久久久久亚洲精品 | 手机在线伦理片 | 桃子视频www | 奇米影视奇米色777欧美 | yy3341殇情影院理论片 | 丝瓜草莓香蕉绿巨人幸福宝 | 国产一区二区精品久久 | 草馏社区最新1024 |