一区二区三区在线-一区二区三区亚洲视频-一区二区三区亚洲-一区二区三区午夜-一区二区三区四区在线视频-一区二区三区四区在线免费观看

服務器之家:專注于服務器技術及軟件下載分享
分類導航

PHP教程|ASP.NET教程|Java教程|ASP教程|編程技術|正則表達式|C/C++|IOS|C#|Swift|Android|VB|R語言|JavaScript|易語言|vb.net|

服務器之家 - 編程語言 - Java教程 - 網絡爬蟲案例解析

網絡爬蟲案例解析

2020-08-27 14:56山登絕頂我為瘋 Java教程

本文主要介紹了網絡爬蟲的小案例。具有很好的參考價值。下面跟著小編一起來看下吧

網絡爬蟲(又被稱為網頁蜘蛛,網絡機器人,在FOAF社區中間,更經常被稱為網頁追逐者),是一種按照一定的規則,自動的抓取萬維網信息的程序或者腳本,已被廣泛應用于互聯網領域。搜索引擎使用網絡爬蟲抓取Web網頁、文檔甚至圖片、音頻、視頻等資源,通過相應的索引技術組織這些信息,提供給搜索用戶進行查詢。網絡爬蟲也為中小站點的推廣提供了有效的途徑,網站針對搜索引擎爬蟲的優化曾風靡一時。

網絡爬蟲的基本工作流程如下:

1.首先選取一部分精心挑選的種子URL;

2.將這些URL放入待抓取URL隊列;

3.從待抓取URL隊列中取出待抓取在URL,解析DNS,并且得到主機的ip,并將URL對應的網頁下載下來,存儲進已下載網頁庫中。此外,將這些URL放進已抓取URL隊列。

4.分析已抓取URL隊列中的URL,分析其中的其他URL,并且將URL放入待抓取URL隊列,從而進入下一個循環。

當然,上面說的那些我都不懂,以我現在的理解,我們請求一個網址,服務器返回給我們一個超級大文本,而我們的瀏覽器可以將這個超級大文本解析成我們說看到的華麗的頁面

那么,我們只需要把這個超級大文本看成一個足夠大的String  字符串就OK了。

下面是我的代碼

?
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
package main.spider;
import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;
import org.jsoup.select.Elements;
import java.io.IOException;
/**
 * Created by 1755790963 on 2017/3/10.
 */
public class Second {
  public static void main(String[] args) throws IOException {
    System.out.println("begin");
    Document document = Jsoup.connect("http://tieba.baidu.com/p/2356694991").get();
    String selector="div[class=d_post_content j_d_post_content clearfix]";
    Elements elements = document.select(selector);
    for (Element element:elements){
      String word= element.text();
      if(word.indexOf("@")>0){
        word=word.substring(0,word.lastIndexOf("@")+7);
        System.out.println(word);
      }
      System.out.println(word);
    }
  }
}

我在這里使用了apache公司所提供的jsoup   jar包,jsoup 是一款Java 的HTML解析器,可直接解析某個URL地址、HTML文本內容。它提供了一套非常省力的API,可通過DOM,CSS以及類似于jQuery的操作方法來取出和操作數據。

在代碼里,我們可以直接使用Jsoup類,并.出Jsoup的connect()方法,這個方法返回一個org.jsoup.Connection對象,參數則是網站的url地址,Connection對象有一個get()方法返回Document對象

document對象的select方法可以返回一個Elements對象,而Elements對象正式Element對象的集合,但select()方法需要我們傳入一個String參數,這個參數就是我們的選擇器

String selector="div[class=d_post_content j_d_post_content  clearfix]";

我們的選擇器語法類似于jquery的選擇器語法,可以選取html頁面中的元素,選擇好后,就可以便利Elements集合,通過Element的text()方法獲取html中的代碼

這樣,一個最簡單的網絡爬蟲就寫完了。

我選擇的網址是 豆瓣網,留下你的郵箱,我會給你發郵件  這樣一個百度貼吧,我扒的是所有人的郵箱地址

附上結果:

網絡爬蟲案例解析

以上就是本文的全部內容,希望本文的內容對大家的學習或者工作能帶來一定的幫助,同時也希望多多支持服務器之家!

原文鏈接:http://www.cnblogs.com/yangsongxiao/p/6533558.html

延伸 · 閱讀

精彩推薦
主站蜘蛛池模板: 欧美精品一区二区三区免费观看 | 欧美日本一本线在线观看 | 欧美人做人爱a全程免费 | 欧美视频在线一区 | 国产人成77777视频网站 | 亚洲AVAV天堂AV在线网爱情 | 91精品国产高清久久久久 | 日本道在线播放 | 无限在线看免费视频大全 | 2021国产麻豆剧传媒新片 | 亚瑟天堂久久一区二区影院 | 四虎永久免费在线观看 | 国产v日韩v欧美v精品专区 | www.爱操 | 超级乱淫寡妇 | 亚洲美女aⅴ久久久91 | 国产在线观看人成激情视频 | 女医学护士一级毛片 | 亚洲天堂在线视频播放 | 激情五月开心 | 亚洲欧美日韩久久一区 | 欧美一区二区三区视视频 | 久久久久久久电影 | 福利色播 | 好姑娘完整版在线观看中文 | 福利一区二区在线观看 | 好大好爽好舒服视频 | 香蕉91视频 | 天天射天天舔 | 国产一区二区三区丶四区 | 国产午夜精品一区二区 | 给我视频免费看 | 翁公与小莹在客厅激情 | 香蕉国产人午夜视频在线观看 | 天天躁夜夜躁很很躁 | 国产综合成色在线视频 | 福利视频导航大全 | 精品一区二区三区高清免费不卡 | 国产成人精品一区二三区在线观看 | 国产精品视频免费视频 | 女人被男人躁得好爽免费视频 |