亚洲免费视频一区二区三区,全免费毛片在线播放,色花堂国产精品原创第一页

引言

應(yīng)用 Java 的開源庫，編寫一個搜索引擎，這個引擎能爬取一個網(wǎng)站的內(nèi)容。并根據(jù)網(wǎng)頁內(nèi)容進行深度爬取，獲取所有相關(guān)的網(wǎng)頁地址和內(nèi)容，用戶可以通過關(guān)鍵詞，搜索所有相關(guān)的網(wǎng)址。

具體功能

(1) 用戶可以指定爬取一個url對應(yīng)的網(wǎng)頁的內(nèi)容。
(2) 對網(wǎng)頁內(nèi)容進行解析，并獲取其中所有的url鏈接地址。
(3) 用戶可以設(shè)定爬取深度，代表著從初始url對應(yīng)的頁面開始，可以爬取其中所有的url對應(yīng)的網(wǎng)頁內(nèi)的url，以此類推。深度越大，能爬取到的網(wǎng)站越多。
(4) 對爬取到的url內(nèi)容進行保存、建立索引。建立索引的內(nèi)容是url地址本身，和url對應(yīng)的網(wǎng)頁標題。
(5) 用戶可以通過關(guān)鍵詞對網(wǎng)址進行搜索，找出有該關(guān)鍵詞的url地址。
(6) 建立索引和搜索索引的過程能智能識別中文關(guān)鍵詞，能對關(guān)鍵詞進行分詞操作。
(7) 用戶可以指定保存索引的地址、初始url、爬取深度、進行搜索的關(guān)鍵詞和最大匹配項。

開源框架

Lucene
Jsoup

源碼

爬蟲部分：Spider.java

100

101

102

103

104

105

106

107

108

109

110

111

112

113

114

115

116

117

118

119

120

121

122

123

124

125

126

127

128

129

130

131

132

133

134

135

136

137

138

139

140

141

142

143

144

145

146

147

148

149

150

151

152

153

154

155

156

157

158

159

160

161

162

163

164

165

166

167

168

169

170

171

172

173

174

175

176

177

178

179

180

181

182

183

184

185

186

187

188

									package webCrawler.Spider;

									import java.io.IOException;

									import java.util.ArrayList;

									import java.util.HashSet;

									import java.util.Scanner;

									import org.jsoup.Jsoup;

									import org.jsoup.nodes.Document;

									import org.jsoup.nodes.Element;

									import org.jsoup.select.Elements;

									import webCrawler.Index.BuildIndex;

									/**

									 * @author lannooo

									 */

									public class Spider {

									  ArrayList<String> URLs;

									  private String startURL;

									  private int digLevel;

									  /**

									   * @param startURL 爬蟲的起始URL

									   * @param digLevel 爬取深度

									   */

									  public Spider(String startURL, int digLevel){

									    this.startURL = startURL;

									    this.digLevel = digLevel;

									    this.URLs = new ArrayList<>();

									  }

									  /**

									   * @param level 當前爬取的深度剩余

									   * @param arrayList 需要進行下一輪爬去的URL集

									   * @return 從一格url集爬取到的新的URL集

									   * @throws IOException

									   */

									  public ArrayList<String> getLevelURLs(int level, ArrayList<String> arrayList) 

									      throws IOException{

									    ArrayList<String> total = null;

									    if(level>0){      

									      total = new ArrayList<>();

									      for(String url: arrayList){

									        /*對于每個arrayList中的URL，首先解析其網(wǎng)頁內(nèi)容，并獲得里面所有URL項*/

									        for(String each: getBareLinks(url)){

									          total.add(each);

									        }

									      }

									      /*用HashSet這個容器將total里面重復(fù)項刪除*/

									      HashSet<String> hashSet = new HashSet<>(total);

									      total = new ArrayList<>(hashSet);

									    }

									    return total;

									  }

									  /**

									   * 從startURL開始，爬取所有相關(guān)URLs

									   * @throws IOException

									   */

									  public void getAll() throws IOException{

									    ArrayList<String> newURLs;

									    ArrayList<String> currentURLs = new ArrayList<>();

									    /*把startURL加入currentURLs這個列表中，從這個url開始爬*/

									    currentURLs.add(startURL);

									    for(int i=digLevel; i>0; i--){

									      /*

									       * 對于每一層，都要獲取一次由這個url引申出去的url集

									       * 然后把當前集的已經(jīng)爬去過的url加入到總的URL集中

									       * 最后newURLs作為新的需要進行深度爬取的集進入下一輪循環(huán)

									       */

									      System.out.println("Dig into level: " + (digLevel-i+1));

									      newURLs = getLevelURLs(i, currentURLs);

									      for(String each: currentURLs){

									        URLs.add(each);

									      }

									      currentURLs = newURLs;

									    }

									    for(String each:currentURLs){

									      URLs.add(each);

									    }

									    HashSet<String> hashSet = new HashSet<>(URLs);

									    URLs = new ArrayList<>(hashSet);

									  }

									  /**

									   * @param path 保存索引的路徑

									   * @throws IOException

									   */

									  public void storeURLsAndInfo(String path) throws IOException{

									    BuildIndex build = new BuildIndex(path);

									    /* 把URLs中的所有url進行實際網(wǎng)頁標題的爬取*/

									    for(String each:URLs){

									      String text = getLinkText(each);

									      if(text!=null){

									        build.addField("url", each);

									        build.addField("text", text);

									        /*將這一個entry加入索引中*/

									        build.pushIndex();

									      }

									    }

									    build.close();

									  }

									  /**

									   * @param url 需要獲取網(wǎng)頁標題的url

									   * @return 標題內(nèi)容

									   * @throws IOException

									   */

									  public String getLinkText(String url) throws IOException{

									    Document document = null;

									    try {

									      /*用Jsoup進行連接，設(shè)置超時時間為3秒*/

									      document = Jsoup.connect(url).timeout(3000).get();

									    } catch (Exception e) {

									      System.out.println("[TIMEOUT]Get title of url:"+url);

									      return null;

									    }

									    String id="codetool">



	建立索引：BuildIndex.java

	
		
			
				?
			
				
					
						
							
								1
							
								2
							
								3
							
								4
							
								5
							
								6
							
								7
							
								8
							
								9
							
								10
							
								11
							
								12
							
								13
							
								14
							
								15
							
								16
							
								17
							
								18
							
								19
							
								20
							
								21
							
								22
							
								23
							
								24
							
								25
							
								26
							
								27
							
								28
							
								29
							
								30
							
								31
							
								32
							
								33
							
								34
							
								35
							
								36
							
								37
							
								38
							
								39
							
								40
							
								41
							
								42
							
								43
							
								44
							
								45
							
								46
							
								47
							
								48
							
								49
							
								50
							
								51
							
								52
							
								53
							
								54
							
								55
							
								56
							
								57
							
								58
							
								59
							
								60
							
								61
							
								62
							
								63
							
								64
							
								65
							
								66
							
								67
							
								68
							
								69
							
								70
							
								71
							
								72
							
								73
							
								74
							
								75
							
								76
							
								77
							
								78
							
								79
							
								80
							
								81
							
								82
							
								83
							
								84
							
								85
							
								86
							
								87
							
								88
							
								89
							
								90
							
								91
							
								92
						
						
							
								
									package webCrawler.Index;
								
									 
								
									import java.io.*;
								
									 
								
									import org.apache.lucene.analysis.Analyzer;
								
									import org.apache.lucene.document.Document;
								
									import org.apache.lucene.document.Field;
								
									import org.apache.lucene.document.TextField;
								
									import org.apache.lucene.index.IndexWriter;
								
									import org.apache.lucene.index.IndexWriterConfig;
								
									import org.apache.lucene.store.Directory;
								
									import org.apache.lucene.store.FSDirectory;
								
									import org.apache.lucene.util.Version;
								
									import org.wltea.analyzer.lucene.IKAnalyzer;
								
									 
								
									/**
								
									 * @author lannooo
								
									 *
								
									 */
								
									public class BuildIndex {
								
									  private File file;
								
									  private Directory directory;
								
									  private IndexWriter indexWriter;
								
									  private IndexWriterConfig config;
								
									  private Analyzer analyzer;
								
									  private Document document;
								
									 
								
									  /**
								
									   * @param path 建立索引的路徑
								
									   */
								
									  public BuildIndex(String path) {
								
									    try {
								
									      file = new File(path);
								
									      directory = FSDirectory.open(file);
								
									      document = new Document();
								
									      analyzer = new IKAnalyzer();    /*中文分詞工具類*/
								
									      config = new IndexWriterConfig(Version.LUCENE_4_10_0, analyzer);
								
									      indexWriter = new IndexWriter(directory, config);      
								
									 
								
									    } catch (Exception e) {
								
									      e.printStackTrace();
								
									    }
								
									  }
								
									 
								
									  /**
								
									   * @param fieldName 加入到document中的新的一項的名稱
								
									   * @param fieldText 新的一項的內(nèi)容
								
									   */
								
									  public void addField(String fieldName, String fieldText){
								
									    try{
								
									      Field field = new TextField(fieldName, fieldText, Field.Store.YES);
								
									      document.add(field);
								
									    }catch (Exception e) {
								
									      e.printStackTrace();
								
									    }
								
									  }
								
									 
								
									  /**
								
									   * 將document加入到索引中
								
									   */
								
									  public void pushIndex(){
								
									    try {
								
									      indexWriter.addDocument(document);
								
									      document = new Document();
								
									    } catch (Exception e) {
								
									      e.printStackTrace();
								
									    }
								
									  }
								
									 
								
									  /**
								
									   * 加入完整的一個document并保存到索引中
								
									   * @param url 加入的url地址
								
									   * @param text url對應(yīng)的文本
								
									   */
								
									  public void addOneIndex(String url, String text){
								
									    this.addField("url", url);
								
									    this.addField("text", text);
								
									    this.pushIndex();
								
									  }
								
									 
								
									  /**
								
									   * 關(guān)閉索引寫入
								
									   */
								
									  public void close(){
								
									    try {
								
									      indexWriter.close();
								
									    } catch (Exception e) {
								
									      e.printStackTrace();
								
									    }
								
									  }
								
									 
								
									}
							
						
					
				
			
		
	
	
		
			
	


	搜索索引

	
		
			
				?
			
				
					
						
							
								1
							
								2
							
								3
							
								4
							
								5
							
								6
							
								7
							
								8
							
								9
							
								10
							
								11
							
								12
							
								13
							
								14
							
								15
							
								16
							
								17
							
								18
							
								19
							
								20
							
								21
							
								22
							
								23
							
								24
							
								25
							
								26
							
								27
							
								28
							
								29
							
								30
							
								31
							
								32
							
								33
							
								34
							
								35
							
								36
							
								37
							
								38
							
								39
							
								40
							
								41
							
								42
							
								43
							
								44
							
								45
							
								46
							
								47
							
								48
							
								49
							
								50
							
								51
							
								52
							
								53
							
								54
							
								55
							
								56
							
								57
							
								58
							
								59
							
								60
							
								61
							
								62
							
								63
							
								64
							
								65
							
								66
							
								67
							
								68
							
								69
							
								70
							
								71
							
								72
							
								73
							
								74
							
								75
							
								76
							
								77
							
								78
							
								79
							
								80
							
								81
							
								82
							
								83
							
								84
							
								85
							
								86
							
								87
							
								88
							
								89
							
								90
							
								91
							
								92
							
								93
							
								94
							
								95
							
								96
							
								97
							
								98
							
								99
							
								100
							
								101
							
								102
							
								103
							
								104
							
								105
							
								106
							
								107
							
								108
						
						
							
								
									package webCrawler.Index;
								
									 
								
									import java.io.File;
								
									import java.util.Scanner;
								
									 
								
									import org.apache.lucene.analysis.Analyzer;
								
									import org.apache.lucene.document.Document;
								
									import org.apache.lucene.index.DirectoryReader;
								
									import org.apache.lucene.queryparser.classic.QueryParser;
								
									import org.apache.lucene.search.IndexSearcher;
								
									import org.apache.lucene.search.Query;
								
									import org.apache.lucene.search.ScoreDoc;
								
									import org.apache.lucene.search.TopDocs;
								
									import org.apache.lucene.store.FSDirectory;
								
									import org.wltea.analyzer.lucene.IKAnalyzer;
								
									 
								
									/**
								
									 * @author lannooo
								
									 *
								
									 */
								
									public class SearchIndex {
								
									  private IndexSearcher indexSearcher;
								
									  private Analyzer analyzer;
								
									  private QueryParser parser;
								
									  private Query query;
								
									  private TopDocs hits;
								
									  private DirectoryReader reader;
								
									 
								
									  /**
								
									   * @param path 進行索引搜索的路徑
								
									   */
								
									  public SearchIndex(String path){
								
									    try {
								
									      reader = DirectoryReader.open(FSDirectory.open(new File(path)));
								
									      indexSearcher = new IndexSearcher(reader);
								
									      analyzer = new IKAnalyzer();
								
									    } catch (Exception e) {
								
									      e.printStackTrace();
								
									    }
								
									  }
								
									 
								
									  /**
								
									   * @param fieldName 搜索的域名稱
								
									   * @param text 搜索的內(nèi)容
								
									   * @param matchNumber 最大匹配項數(shù)
								
									   * @return 搜索到的最大匹配數(shù)
								
									   */
								
									  public int search(String fieldName, String text, int matchNumber){
								
									    try {
								
									      parser = new QueryParser(fieldName, analyzer);
								
									      query = parser.parse(text);
								
									      hits = indexSearcher.search(query, matchNumber);
								
									 
								
									      return hits.totalHits;
								
									    } catch (Exception e) {
								
									      e.printStackTrace();
								
									    }
								
									    return -1;
								
									  }
								
									  /**
								
									   * 打印所有的匹配項
								
									   */
								
									  public void printHits(){
								
									    try{
								
									      System.out.println("Total hits number:"+hits.totalHits);
								
									      for(ScoreDoc doc: hits.scoreDocs){
								
									        Document document = indexSearcher.doc(doc.doc);
								
									        System.out.println(document.get("url"));
								
									        System.out.println(document.get("text"));
								
									      }
								
									      reader.close();
								
									    }catch (Exception e) {
								
									      e.printStackTrace();
								
									    }
								
									  }
								
									  public static void main(String[] args) {
								
									    /*輸入關(guān)鍵詞*/
								
									    Scanner in = new Scanner(System.in);
								
									    System.out.println("Enter path of the index:");
								
									    String path = in.nextLine().trim();
								
									    while(path.length()==0){
								
									      System.out.println("Enter path of the index:");
								
									      path = in.nextLine().trim();
								
									    }
								
									 
								
									    System.out.println("Enter max hit number:");
								
									    int max = in.nextInt();
								
									    while(max<0){
								
									      System.out.println("Enter max hit number:");
								
									      max = in.nextInt();
								
									    }
								
									    in.nextLine();
								
									    System.out.print("Search>>> ");
								
									    String text = in.nextLine().trim();
								
									    /*循環(huán)讀入用戶的關(guān)鍵詞，如果是q則退出，長度為0也退出*/
								
									    while(!text.equals("q")){
								
									      if(text.length()>0){
								
									        SearchIndex search = new SearchIndex(path);
								
									        int hits = search.search("text", text, max);
								
									        if(hits!=-1){
								
									          search.printHits();
								
									        }
								
									      }
								
									      System.out.print("Search>>> ");
								
									      text = in.nextLine().trim();
								
									    }
								
									  }
								
									}
							
						
					
				
			
		
	
	
		
			
	


	UI界面（這里為了方便只是命令行的形式，可以根據(jù)需求寫一個GUI界面）

	
		
			
				?
			
				
					
						
							
								1
							
								2
							
								3
							
								4
							
								5
							
								6
							
								7
							
								8
							
								9
							
								10
							
								11
							
								12
							
								13
							
								14
							
								15
							
								16
							
								17
							
								18
							
								19
							
								20
							
								21
							
								22
							
								23
							
								24
							
								25
							
								26
							
								27
							
								28
						
						
							
								
									package webCrawler.UI;
								
									 
								
									import java.util.Scanner;
								
									 
								
									import webCrawler.Index.SearchIndex;
								
									 
								
									/**
								
									 * @author lannooo
								
									 *
								
									 */
								
									public class UI {
								
									  public static void main(String[] args) {
								
									    /*輸入關(guān)鍵詞*/
								
									    Scanner in = new Scanner(System.in);
								
									    System.out.print("Search>>> ");
								
									    String text = in.nextLine().trim();
								
									    /*對于用戶的關(guān)鍵詞，如果是q則退出，長度為0也退出*/
								
									    while(!text.equals("q") && text.length()>0){
								
									      SearchIndex search = new SearchIndex("d:/index-spider2");
								
									      int hits = search.search("text", text, 20);
								
									      if(hits!=-1){
								
									        search.printHits();
								
									      }
								
									      System.out.print("Search>>> ");
								
									      text = in.nextLine().trim();
								
									    }
								
									  }
								
									}
							
						
					
				
			
		
	
	
		
			
	


	以上就是本文的全部內(nèi)容，希望對大家的學(xué)習(xí)有所幫助，也希望大家多多支持服務(wù)器之家。

	原文鏈接：http://blog.csdn.net/qq_22187919/article/details/60466006

			
		    
			
			
			
				 
			
		
		
			
				 
				Java
				
				Web
				
				搜索引擎
				
			
			
				
			
		
		
			
				延伸 · 閱讀
			
			
				 2022-03-11Java京東面試題之為什么HashMap線程不安全
2022-03-11Java面試為何阿里強制要求不在foreach里執(zhí)行刪除操
2022-03-11圖解Java排序算法之希爾排序
2022-03-11圖解Java排序算法之快速排序的三數(shù)取中法
2022-03-11圖解Java排序算法之堆排序
2022-03-11java中TreeMap集合的常用方法詳解

			
		
		
		
		
			
				
			
		
		
			
				精彩推薦
			
		
		
			
				
					
				
				 Java教程
				
					Java之SpringBoot集成ActiveMQ消息中間件案例講解
					
						 這篇文章主要介紹了Java之SpringBoot集成ActiveMQ消息中間件案例講解,本篇文章通過簡要的案例,講解了該項技術(shù)的了解與使用,以下就是詳細內(nèi)容,需要的朋友可...
					
					
						愚蠢的土撥鼠~10402021-10-29
					
				
				
Java教程
				
					Java中Lambda表達式的進化之路詳解
					
						 本文通過示例大家給大家介紹了Java中Lambda表達式的進化之路，感興趣的的朋友一起看看吧，希望能夠給你帶來幫助...
					
					
						Thales_ZeeWay4512022-03-10
					
				
				
Java教程
				
					java設(shè)計模式之外觀模式學(xué)習(xí)筆記
					
						 這篇文章主要為大家詳細介紹了java設(shè)計模式之外觀模式學(xué)習(xí)筆記,具有一定的參考價值，感興趣的小伙伴們可以參考一下
...
					
					
						翡青2402020-06-24
					
				
				
Java教程
				
					淺談javap命令拆解字節(jié)碼文件
					
						 這篇文章主要介紹了拆解字節(jié)碼文件javap命令，對反編譯感興趣的同學(xué)可以參考下...
					
					
						2048102410422021-09-02
					
				
				
Java教程
				
					Java源碼解析阻塞隊列ArrayBlockingQueue介紹
					
						 今天小編就為大家分享一篇關(guān)于Java源碼解析阻塞隊列ArrayBlockingQueue介紹，小編覺得內(nèi)容挺不錯的，現(xiàn)在分享給大家，具有很好的參考價值，需要的朋友一起...
					
					
						李燦輝9012021-06-30
					
				
				
Java教程
				
					java字符串求并集的方法
					
						 這篇文章主要介紹了java字符串求并集的方法,涉及Java字符串操作中union方法的使用,是Java字符串操作中非常實用的基本技巧,需要的朋友可以參考下
...
					
					
						shichen20146552019-12-06
					
				
				
Java教程
				
					Java基礎(chǔ)知識匯總
					
						 這篇文章對Java編程語言的基礎(chǔ)知識作了一個較為全面的匯總，在這里給大家分享一下。需要的朋友可以參考。...
					
					
						李子園的夢想5212021-01-06
					
				
				
Java教程
				
					每日六道java新手入門面試題,通往自由的道路第二天
					
						 這篇文章主要為大家分享了最有價值的6道java面試題，涵蓋內(nèi)容全面，包括數(shù)據(jù)結(jié)構(gòu)和算法相關(guān)的題目、經(jīng)典面試編程題等，對hashCode方法的設(shè)計、垃圾收集...
					
					
						太子爺哪吒6222021-09-23
					
				
				

			
		
	
	 
最近更新
Golang實現(xiàn)JAVA虛擬機-運行時數(shù)據(jù)區(qū)
【算法】Java版
Java并發(fā)(二十)----synchronized原理進階
IDEA工具第二篇：自定義Java方法注釋模板
C# 在流行度指數(shù)上將超過Java
編輯推薦
美國和歐洲 vps哪個好？美國和歐洲vps詳細對比
 2云服務(wù)器是什么，云主機干什么用的？
2020-07-22
 32020最新好用的web服務(wù)器軟件推薦
2020-05-17
4服務(wù)器操作系統(tǒng)有哪些?
2020-04-06
5web服務(wù)器配置（圖文詳解）
2020-04-06
6企業(yè)如何選擇阿里云服務(wù)器配置?
2019-10-18
7五大免費主機管理系統(tǒng)優(yōu)缺點對比及推薦
2019-06-14
82019最新三款Windows下連接Linux的ssh軟件下載推薦
2019-05-28
9服務(wù)器常用管理軟件盤點
2019-05-27
10Nginx服務(wù)器究竟是怎么執(zhí)行PHP項目
2019-05-24
閱讀排行
1 Intellij idea2020永久破解，親測可用！！！
2 最新idea2020注冊碼永久激活(激活到2100年)
3 解決執(zhí)行maven命令時提示Process terminated的問題
 4 mybatis的大于小于號轉(zhuǎn)義符號一覽
5 手把手教你如何免費且光榮地使用正版Intel
6 Java枚舉(enum) 詳解7種常見的用法
7 2020JDK1.8安裝教程詳解(一次就可安裝成功)
8 java中文亂碼之解決URL中文亂碼問題的方法
9 java.util.concurrent.ExecutionException 問題解決方法
10 詳解mybatis-plus的 mapper.xml 路徑配置的坑
熱門標簽
 501 　  406 　  415 　  1433 　  2000 　  401 　  330 　  GOF23 　  堆棧類 　  微信公眾號 　  注冊服務(wù) 　  嵌套循環(huán) 　  critical 　  consul 　  spring 　  集合 　  volatile 　  Hibernate 　  Java 　  new 　  double 　  泛型 　  Java編程 　  遍歷 　  設(shè)計模式 　  supplyAsync 　  制表符 　  回車 　  寫入文件 　  JAVA8 　 




 © 2019-2024 服務(wù)器之家(www.ythuaji.com.cn) 版權(quán)所有關(guān)于我們聯(lián)系我們版權(quán)申明網(wǎng)站地圖






感谢您访问我们的网站，您可能还对以下资源感兴趣：
一区二区三区在线|一区二区三区亚洲视频|一区二区三区亚洲|一区二区三区午夜|一区二区三区四区在线视频|一区二区三区四区在线免费观看









主站蜘蛛池模板：
高清视频在线观看+免费
|
嗯啊视频在线观看
|
亚洲欧洲日产国码天堂
|
黄绝一级|
精品久久久久久久久久久久久久久
|
欧美日韩一区二区三区免费
|
99国产热|
热99在线观看
|
无人影院在线播放视频
|
日本天堂视频在线观看
|
欧美一区二区福利视频
|
久久精品动漫99精品动漫
|
国产免费资源
|
国产精品乱码高清在线观看
|
555www成人网
|
欧美一区二区三区四区在线观看
|
999国产精品亚洲77777
|
韩日视频在线
|
好男人好资源在线观看免费
|
免费的强动漫人物
|
zol中关村在线
|
国产成人综合精品一区
|
蛮荒的童话未删减在线观看
|
亚洲va在线va天堂va偷拍
|
欧美日韩一区二区三在线
|
黄动漫车车好快的车车a
|
www.青青草原|
兽操人|
欧美摸胸
|
精品国产精品人妻久久无码五月天
|
亚洲va欧美va天堂v国产综合
|
青青草99久久精品国产综合
|
日韩在线观看免费
|
国产一区日韩二区欧美三区
|
avtt天堂网 手机资源
|
免费国产好深啊好涨好硬视频
|
范冰冰性xxxxhd|
亚洲第一人黄所
|
波多野结衣一区免费作品
|
小寡妇好紧进去了好大看视频
|
国产欧美日韩专区毛茸茸
|