一区二区三区在线-一区二区三区亚洲视频-一区二区三区亚洲-一区二区三区午夜-一区二区三区四区在线视频-一区二区三区四区在线免费观看

服務(wù)器之家:專注于服務(wù)器技術(shù)及軟件下載分享
分類導(dǎo)航

PHP教程|ASP.NET教程|Java教程|ASP教程|編程技術(shù)|正則表達(dá)式|C/C++|IOS|C#|Swift|Android|VB|R語言|JavaScript|易語言|vb.net|

服務(wù)器之家 - 編程語言 - Java教程 - springboot+webmagic實現(xiàn)java爬蟲jdbc及mysql的方法

springboot+webmagic實現(xiàn)java爬蟲jdbc及mysql的方法

2021-05-26 13:27*眉間緣* Java教程

今天小編就為大家分享一篇springboot+webmagic實現(xiàn)java爬蟲jdbc及mysql的方法,具有很好的參考價值,希望對大家有所幫助。一起跟隨小編過來看看吧

前段時間需要爬取網(wǎng)頁上的信息,自己對于爬蟲沒有任何了解,就了解了一下webmagic,寫了個簡單的爬蟲。

一、首先介紹一下webmagic:

webmagic采用完全模塊化的設(shè)計,功能覆蓋整個爬蟲的生命周期(鏈接提取、頁面下載、內(nèi)容抽取、持久化),支持多線程抓取,分布式抓取,并支持自動重試、自定義ua/cookie等功能。

實現(xiàn)理念:

springboot+webmagic實現(xiàn)java爬蟲jdbc及mysql的方法

maven依賴:

?
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
<dependency>
   <groupid>us.codecraft</groupid>
   <artifactid>webmagic-core</artifactid>
   <version>0.7.3</version>
  </dependency>
  <dependency>
   <groupid>us.codecraft</groupid>
   <artifactid>webmagic-extension</artifactid>
   <version>0.7.3</version>
  </dependency>
 
  <dependency>
   <groupid>us.codecraft</groupid>
   <artifactid>webmagic-extension</artifactid>
   <version>0.7.3</version>
   <exclusions>
    <exclusion>
     <groupid>org.slf4j</groupid>
     <artifactid>slf4j-log4j12</artifactid>
    </exclusion>
   </exclusions>
  </dependency>

jdbc模式:

?
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
ublic class csdnblogdao {
  private connection conn = null;
  private statement stmt = null;
 
  public csdnblogdao() {
    try {
      class.forname("com.mysql.jdbc.driver");
      string url = "jdbc:mysql://localhost:3306/test?"
          + "user=***&password=***3&useunicode=true&characterencoding=utf8";
      conn = drivermanager.getconnection(url);
      stmt = conn.createstatement();
    } catch (classnotfoundexception e) {
      e.printstacktrace();
    } catch (sqlexception e) {
      e.printstacktrace();
    }
 
  }
 
  public int add(csdnblog csdnblog) {
    try {
      string sql = "insert into `test`.`csdnblog` (`keyes`, `titles`, `content` , `dates`, `tags`, `category`, `views`, `comments`, `copyright`) values (?, ?, ?, ?, ?, ?, ?, ?,?);";
      preparedstatement ps = conn.preparestatement(sql);
      ps.setint(1, csdnblog.getkey());
      ps.setstring(2, csdnblog.gettitle());
      ps.setstring(3,csdnblog.getcontent());
      ps.setstring(4, csdnblog.getdates());
      ps.setstring(5, csdnblog.gettags());
      ps.setstring(6, csdnblog.getcategory());
      ps.setint(7, csdnblog.getview());
      ps.setint(8, csdnblog.getcomments());
      ps.setint(9, csdnblog.getcopyright());
      return ps.executeupdate();
    } catch (sqlexception e) {
      e.printstacktrace();
    }
    return -1;
  }
}

實體類:

  1. public class csdnblog { 
  2.   private int key;// 編號 
  3.  
  4.   private string title;// 標(biāo)題 
  5.  
  6.   private string dates;// 日期 
  7.  
  8.   private string tags;// 標(biāo)簽 
  9.  
  10.   private string category;// 分類 
  11.  
  12.   private int view;// 閱讀人數(shù) 
  13.  
  14.   private int comments;// 評論人數(shù) 
  15.  
  16.   private int copyright;// 是否原創(chuàng) 
  17.  
  18.   private string content; //文字內(nèi)容 
  19.  
  20.   public string getcontent() { 
  21.     return content; 
  22.   } 
  23.  
  24.   public void setcontent(string content) { 
  25.     this.content = content; 
  26.   } 
  27.  
  28.   public int getkey() { 
  29.     return key; 
  30.   } 
  31.  
  32.   public void setkey(int key) { 
  33.     this.key = key; 
  34.   } 
  35.  
  36.   public string gettitle() { 
  37.     return title; 
  38.   } 
  39.  
  40.   public void settitle(string title) { 
  41.     this.title = title; 
  42.   } 
  43.  
  44.   public string getdates() { 
  45.     return dates; 
  46.   } 
  47.  
  48.   public void setdates(string dates) { 
  49.     this.dates = dates; 
  50.   } 
  51.  
  52.   public string gettags() { 
  53.     return tags; 
  54.   } 
  55.  
  56.   public void settags(string tags) { 
  57.     this.tags = tags; 
  58.   } 
  59.  
  60.   public string getcategory() { 
  61.     return category; 
  62.   } 
  63.  
  64.   public void setcategory(string category) { 
  65.     this.category = category; 
  66.   } 
  67.  
  68.   public int getview() { 
  69.     return view; 
  70.   } 
  71.  
  72.   public void setview(int view) { 
  73.     this.view = view; 
  74.   } 
  75.  
  76.   public int getcomments() { 
  77.     return comments; 
  78.   } 
  79.  
  80.   public void setcomments(int comments) { 
  81.     this.comments = comments; 
  82.   } 
  83.  
  84.   public int getcopyright() { 
  85.     return copyright; 
  86.   } 
  87.  
  88.   public void setcopyright(int copyright) { 
  89.     this.copyright = copyright; 
  90.   } 
  91.   public string tostring() { 
  92.     return "csdnblog [key=" + key + ", title=" + title + ", content=" + content + ",dates=" + dates + ", tags=" + tags + ", category=" 
  93.         + category + ", view=" + view + ", comments=" + comments + ", copyright=" + copyright + "]"
  94.   } 

啟動類:

?
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
public class csdnblogpageprocessor implements pageprocessor {
 
 
  private static string username="chenyufeng1991"; // 設(shè)置csdn用戶名
 
  private static int size = 0;// 共抓取到的文章數(shù)量
 
  // 抓取網(wǎng)站的相關(guān)配置,包括:編碼、抓取間隔、重試次數(shù)等
  private site site = site.me().setretrytimes(3).setsleeptime(1000);
 
  public site getsite() {
    return site;
  }
 
 
  // process是定制爬蟲邏輯的核心接口,在這里編寫抽取邏輯
  public void process(page page) {
    // 列表頁
    if (!page.geturl().regex("http://blog.csdn.net/" + username + "/article/details/d+").match()) {
      // 添加所有文章頁
      page.addtargetrequests(page.gethtml().xpath("//div[@id='article_list']").links()// 限定文章列表獲取區(qū)域
          .regex("/" + username + "/article/details/d+")
          .replace("/" + username + "/", "http://blog.csdn.net/" + username + "/")// 巧用替換給把相對url轉(zhuǎn)換成絕對url
          .all());
      // 添加其他列表頁
      page.addtargetrequests(page.gethtml().xpath("//div[@id='papelist']").links()// 限定其他列表頁獲取區(qū)域
          .regex("/" + username + "/article/list/d+")
          .replace("/" + username + "/", "http://blog.csdn.net/" + username + "/")// 巧用替換給把相對url轉(zhuǎn)換成絕對url
          .all());
      // 文章頁
    } else {
      size++;// 文章數(shù)量加1
      // 用csdnblog類來存抓取到的數(shù)據(jù),方便存入數(shù)據(jù)庫
      csdnblog csdnblog = new csdnblog();
      // 設(shè)置編號
      csdnblog.setkey(integer.parseint(
          page.geturl().regex("http://blog.csdn.net/" + username + "/article/details/(d+)").get()));
      // 設(shè)置標(biāo)題
      csdnblog.settitle(
          page.gethtml().xpath("//div[@class='article_title']//span[@class='link_title']/a/text()").get());
 
      //設(shè)置內(nèi)容
      csdnblog.setcontent(
          page.gethtml().xpath("//div[@class='article_content']/alltext()").get());
 
      // 設(shè)置日期
      csdnblog.setdates(
          page.gethtml().xpath("//div[@class='article_r']/span[@class='link_postdate']/text()").get());
      // 設(shè)置標(biāo)簽(可以有多個,用,來分割)
      csdnblog.settags(listtostring(page.gethtml().xpath("//div[@class='article_l']/span[@class='link_categories']/a/alltext()").all()));
      // 設(shè)置類別(可以有多個,用,來分割)
      csdnblog.setcategory(listtostring(page.gethtml().xpath("//div[@class='category_r']/label/span/text()").all()));
      // 設(shè)置閱讀人數(shù)
      csdnblog.setview(integer.parseint(page.gethtml().xpath("//div[@class='article_r']/span[@class='link_view']")
          .regex("(d+)人閱讀").get()));
      // 設(shè)置評論人數(shù)
      csdnblog.setcomments(integer.parseint(page.gethtml()
          .xpath("//div[@class='article_r']/span[@class='link_comments']").regex("((d+))").get()));
      // 設(shè)置是否原創(chuàng)
      csdnblog.setcopyright(page.gethtml().regex("bog_copyright").match() ? 1 : 0);
      // 把對象存入數(shù)據(jù)庫
      new csdnblogdao().add(csdnblog);
      // 把對象輸出控制臺
      system.out.println(csdnblog);
    }
  }
 
  // 把list轉(zhuǎn)換為string,用,分割
  public static string listtostring(list<string> stringlist) {
    if (stringlist == null) {
      return null;
    }
    stringbuilder result = new stringbuilder();
    boolean flag = false;
    for (string string : stringlist) {
      if (flag) {
        result.append(",");
      } else {
        flag = true;
      }
      result.append(string);
    }
    return result.tostring();
  }
 
  public static void main(string[] args) {
    long starttime, endtime;
    system.out.println("【爬蟲開始】...");
    starttime = system.currenttimemillis();
    // 從用戶博客首頁開始抓,開啟5個線程,啟動爬蟲
    spider.create(new csdnblogpageprocessor()).addurl("http://blog.csdn.net/" + username).thread(5).run();
    endtime = system.currenttimemillis();
    system.out.println("【爬蟲結(jié)束】共抓取" + size + "篇文章,耗時約" + ((endtime - starttime) / 1000) + "秒,已保存到數(shù)據(jù)庫,請查收!");
  }
}

使用mysql類型:

?
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
public class gamepageprocessor implements pageprocessor {
 
  private static final logger logger = loggerfactory.getlogger(gamepageprocessor.class);
  private static dianjingservice d;
  private static bannerservice bs;
  private static sportservice ss;
  private static yulenewsservice ys;
 
  private static updateservice ud ;
  // 抓取網(wǎng)站的相關(guān)配置,包括:編碼、抓取間隔、重試次數(shù)等
  private site site = site.me().setretrytimes(3).setsleeptime(1000);
 
  public site getsite() {
    return site;
  }
  // process是定制爬蟲邏輯的核心接口,在這里編寫抽取邏輯
  public static void main(string[] args) {
    configurableapplicationcontext context= springapplication.run(gamepageprocessor.class, args);
     d = context.getbean(dianjingservice.class);
    //spider.create(new gamepageprocessor()).addurl("網(wǎng)址").thread(5).run();
  }
 
  public void process(page page) {
    selectable url = page.geturl();
    if (url.tostring().equals("網(wǎng)址")) {
      dianjingvideo dv = new dianjingvideo();
      list<string> ls = page.gethtml().xpath("//div[@class='v']/div[@class='v-meta va']/div[@class='v-meta-title']/a/text()").all();
      //hrefs
      list<string> ls1 = page.gethtml().xpath("//div[@class='v']/div[@class='v-link']/a/@href").all();//獲取a標(biāo)簽的href
 
      list<string> ls2 = page.gethtml().xpath("//div[@class='v']/div[@class='v-meta va']/div[@class='v-meta-entry']/div[@class='v-meta-data']/span[@class='r']/text()").all();
      //photo
      list<string> ls3 = page.gethtml().xpath("//div[@class='v']/div[@class='v-thumb']/img/@src").all();
 
      for (int i = 0; i < 5; i++) {
        dv.settitles(ls.get(i));
        dv.setcategory("");
        dv.setdates(ls2.get(i));
        dv.sethrefs(ls1.get(i));
        dv.setphoto(ls3.get(i));
        dv.setsources("");
 
        d.addvideo(dv);
 
      }
    }
}

controller:

  1. @controller 
  2. @requestmapping(value = "/dianjing"
  3. public class dianjingcontroller { 
  4.   @autowired 
  5.   private dianjingservice s; 
  6.  
  7.  
  8.  
  9.  
  10.     /* 
  11.     手游 
  12.      */ 
  13.   @requestmapping("/dianjing"
  14.   @responsebody 
  15.   public object dianjing(){ 
  16.     list<dianjing> list = s.find2(); 
  17.     jsonobject jo = new jsonobject(); 
  18.     if(list!=null){ 
  19.  
  20.       jo.put("code",0); 
  21.       jo.put("success",true); 
  22.       jo.put("count",list.size()); 
  23.       jo.put("list",list); 
  24.     } 
  25.     return jo; 
  26.   } 

實體類就不展示了

dao層

?
1
2
@insert("insert into dianjing (titles,dates,category,hrefs,photo,sources) values(#{titles},#{dates},#{category},#{hrefs},#{photo},#{sources})")
int adddj(dianjing dj);

以上這篇springboot+webmagic實現(xiàn)java爬蟲jdbc及mysql的方法就是小編分享給大家的全部內(nèi)容了,希望能給大家一個參考,也希望大家多多支持服務(wù)器之家。

原文鏈接:https://www.cnblogs.com/NCL--/p/8608336.html

延伸 · 閱讀

精彩推薦
主站蜘蛛池模板: 东北疯狂xxxxbbbb中国 | 经典三级四虎在线观看 | jzjzjz日本在线观看 | 5x视频在线观看 | 欧美贵妇videos办公室360 | 日本网络视频www色高清免费 | 国产一区二区三区在线看片 | 和肥岳在厨房激情 | 国产免费好大好硬视频 | 国产亚洲精品久久yy5099 | 小苹果日本在线观看 | xxx老妇人60 xxxx意大利xxxxhd | 日本护士xxxx视频免费 | 天堂一区二区在线观看 | 无遮挡h肉动漫高清在线 | 三年片韩国在线 | 狠狠操社区 | 日本中年japanesebear | 暖暖视频日本 | 男人的天堂久久精品激情a 男人的天堂va | 98pao强力打造高清免费 | 波多野结衣中文丝袜字幕 | 国产91精品在线播放 | 国产按摩系列 | 久久不射视频 | 国产精品一区二区三区免费 | 调教女警花穿环上班 | 嗯啊好大视频 | 国产午夜免费不卡精品理论片 | 狠狠狠地啪香蕉 | 美女被草逼| 欧美日韩中文字幕在线视频 | 国产成人精品综合在线观看 | 国产剧情在线播放 | 国产成人综合网亚洲欧美在线 | 特级淫片大乳女子高清视频 | 国产在线91| 免费尤物视频 | 放荡的女老板bd中文字幕 | 国产精品原创视频 | 日本国产在线视频 |