一区二区三区在线-一区二区三区亚洲视频-一区二区三区亚洲-一区二区三区午夜-一区二区三区四区在线视频-一区二区三区四区在线免费观看

服務(wù)器之家:專注于服務(wù)器技術(shù)及軟件下載分享
分類導(dǎo)航

PHP教程|ASP.NET教程|JAVA教程|ASP教程|編程技術(shù)|正則表達(dá)式|

服務(wù)器之家 - 編程語言 - JAVA教程 - 詳解JAVA抓取網(wǎng)頁(yè)的圖片,JAVA利用正則表達(dá)式抓取網(wǎng)站圖片

詳解JAVA抓取網(wǎng)頁(yè)的圖片,JAVA利用正則表達(dá)式抓取網(wǎng)站圖片

2020-07-16 11:42SwingPyzf JAVA教程

這篇文章主要介紹了詳解JAVA抓取網(wǎng)頁(yè)的圖片,JAVA利用正則表達(dá)式抓取網(wǎng)站圖片,非常具有實(shí)用價(jià)值,需要的朋友可以參考下。

利用Java抓取網(wǎng)頁(yè)上的所有圖片

用兩個(gè)正則表達(dá)式

1、匹配html中img標(biāo)簽的正則:<img.*src=(.*?)[^>]*?>

2、匹配img標(biāo)簽中得src中http路徑的正則:http:\"?(.*?)(\"|>|\\s+)

實(shí)現(xiàn):

?
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
117
118
119
120
121
122
123
124
package org.swinglife.main;
 
import java.io.File;
import java.io.FileOutputStream;
import java.io.InputStream;
import java.net.URL;
import java.net.URLConnection;
import java.util.ArrayList;
import java.util.List;
import java.util.regex.Matcher;
import java.util.regex.Pattern;
 
/***
 * java抓取網(wǎng)絡(luò)圖片
 * @author swinglife
 *
 */
public class CatchImage {
 
  // 地址
  private static final String URL = "http://www.ythuaji.com.cn";
  // 編碼
  private static final String ECODING = "UTF-8";
  // 獲取img標(biāo)簽正則
  private static final String IMGURL_REG = "<img.*src=(.*?)[^>]*?>";
  // 獲取src路徑的正則
  private static final String IMGSRC_REG = "http:\"?(.*?)(\"|>|\\s+)";
 
   
  public static void main(String[] args) throws Exception {
    CatchImage cm = new CatchImage();
    //獲得html文本內(nèi)容
    String HTML = cm.getHTML(URL);
    //獲取圖片標(biāo)簽
    List<String> imgUrl = cm.getImageUrl(HTML);
    //獲取圖片src地址
    List<String> imgSrc = cm.getImageSrc(imgUrl);
    //下載圖片
    cm.Download(imgSrc);
  }
   
   
  /***
   * 獲取HTML內(nèi)容
   *
   * @param url
   * @return
   * @throws Exception
   */
  private String getHTML(String url) throws Exception {
    URL uri = new URL(url);
    URLConnection connection = uri.openConnection();
    InputStream in = connection.getInputStream();
    byte[] buf = new byte[1024];
    int length = 0;
    StringBuffer sb = new StringBuffer();
    while ((length = in.read(buf, 0, buf.length)) > 0) {
      sb.append(new String(buf, ECODING));
    }
    in.close();
    return sb.toString();
  }
 
  /***
   * 獲取ImageUrl地址
   *
   * @param HTML
   * @return
   */
  private List<String> getImageUrl(String HTML) {
    Matcher matcher = Pattern.compile(IMGURL_REG).matcher(HTML);
    List<String> listImgUrl = new ArrayList<String>();
    while (matcher.find()) {
      listImgUrl.add(matcher.group());
    }
    return listImgUrl;
  }
 
  /***
   * 獲取ImageSrc地址
   *
   * @param listImageUrl
   * @return
   */
  private List<String> getImageSrc(List<String> listImageUrl) {
    List<String> listImgSrc = new ArrayList<String>();
    for (String image : listImageUrl) {
      Matcher matcher = Pattern.compile(IMGSRC_REG).matcher(image);
      while (matcher.find()) {
        listImgSrc.add(matcher.group().substring(0, matcher.group().length() - 1));
      }
    }
    return listImgSrc;
  }
 
  /***
   * 下載圖片
   *
   * @param listImgSrc
   */
  private void Download(List<String> listImgSrc) {
    try {
      for (String url : listImgSrc) {
        String imageName = url.substring(url.lastIndexOf("/") + 1, url.length());
        URL uri = new URL(url);
        InputStream in = uri.openStream();
        FileOutputStream fo = new FileOutputStream(new File(imageName));
        byte[] buf = new byte[1024];
        int length = 0;
        System.out.println("開始下載:" + url);
        while ((length = in.read(buf, 0, buf.length)) != -1) {
          fo.write(buf, 0, length);
        }
        in.close();
        fo.close();
        System.out.println(imageName + "下載完成");
      }
    } catch (Exception e) {
      System.out.println("下載失敗");
    }
  }
 
   
}

以上就是本文的全部?jī)?nèi)容,希望對(duì)大家的學(xué)習(xí)有所幫助,也希望大家多多支持服務(wù)器之家。

原文鏈接:http://blog.csdn.net/swingpyzf/article/details/16338903

延伸 · 閱讀

精彩推薦
主站蜘蛛池模板: 国产大胆歌舞团网站 | 亚洲成人91 | 美女张开腿黄网站免费精品动漫 | 国产精品视频免费一区二区三区 | 免费福利资源站在线视频 | 国产欧美综合精品一区二区 | 久久精品热在线观看30 | 久久国产精品人妻中文 | 国产精品久久国产三级国电话系列 | 小sao货水好多真紧h的视频 | 国产精品久久久久久久久 | 好大好爽好舒服视频 | www.东方影库 | 日韩欧美中文字幕出 | 国产香蕉97碰碰久久人人 | 日韩精品福利视频一区二区三区 | 精品国产剧情在线观看 | 国产成人精品日本亚洲网址 | 亚欧日韩 | 91专区| 日本一区二区精品88 | 日本视频免费在线播放 | 999久久免费高清热精品 | www免费视频com | 亲爱的客栈第二季免费观看完整版 | 美女gif趴跪式抽搐动态图 | 久久aa毛片免费播放嗯啊 | 免费在线观看亚洲 | 日韩在线一区二区三区免费视频 | 日韩欧美一区二区三区四区 | 免费一区 | freexxxx性护士第一次 | 91在线 一区 二区三区 | 皇上好大好硬好涨好深好爽 | 成人aqq | 韩国三级在线观看 完整版 韩国三级视频网站 | 国产精品视频一区二区三区不卡 | 超鹏97国语 | 亚洲福利天堂网福利在线观看 | 亚洲日本免费 | 大学生宿舍飞机china free |