全国最大色成免费网站,四虎自拍,97视频精品全国在线观看

solr是一個獨立的企業級搜索應用服務器，它對外提供類似于web-service的api接口。用戶可以通過http請求，向搜索引擎服務器提交一定格式的xml文件，生成索引；也可以通過http get操作提出查找請求，并得到xml/json格式的返回結果。采用java5開發，基于lucene。

lucene是apache軟件基金會4 jakarta項目組的一個子項目，是一個開放源代碼的全文檢索引擎工具包，即它不是一個完整的全文檢索引擎，而是一個全文檢索引擎的架構，提供了完整的查詢引擎和索引引擎，部分文本分析引擎（英文與德文兩種西方語言）。

其中lucene全文檢索的基本原理，跟郭軍大牛講的web搜索課程里的技術一致，采用分詞，語義語法分析，向量空間模型等技術來實現，下面轉載一篇講的比較細致的博文備忘：http://www.cnblogs.com/guochunguang/articles/3641008.html

一、總論

根據http://lucene.apache.org/java/docs/index.html定義：

lucene是一個高效的，基于java的全文檢索庫。

所以在了解lucene之前要費一番工夫了解一下全文檢索。

那么什么叫做全文檢索呢？這要從我們生活中的數據說起。

我們生活中的數據總體分為兩種：結構化數據和非結構化數據。

•結構化數據：指具有固定格式或有限長度的數據，如數據庫，元數據等。

•非結構化數據：指不定長或無固定格式的數據，如郵件，word文檔等。

當然有的地方還會提到第三種，半結構化數據，如xml，html等，當根據需要可按結構化數據來處理，也可抽取出純文本按非結構化數據來處理。

非結構化數據又一種叫法叫全文數據。

按照數據的分類，搜索也分為兩種：

•對結構化數據的搜索：如對數據庫的搜索，用sql語句。再如對元數據的搜索，如利用windows搜索對文件名，類型，修改時間進行搜索等。

•對非結構化數據的搜索：如利用windows的搜索也可以搜索文件內容，linux下的grep命令，再如用google和百度可以搜索大量內容數據。

對非結構化數據也即對全文數據的搜索主要有兩種方法：

一種是順序掃描法(serial scanning)：所謂順序掃描，比如要找內容包含某一個字符串的文件，就是一個文檔一個文檔的看，對于每一個文檔，從頭看到尾，如果此文檔包含此字符串，則此文檔為我們要找的文件，接著看下一個文件，直到掃描完所有的文件。如利用windows的搜索也可以搜索文件內容，只是相當的慢。如果你有一個80g硬盤，如果想在上面找到一個內容包含某字符串的文件，不花他幾個小時，怕是做不到。linux下的grep命令也是這一種方式。大家可能覺得這種方法比較原始，但對于小數據量的文件，這種方法還是最直接，最方便的。但是對于大量的文件，這種方法就很慢了。

有人可能會說，對非結構化數據順序掃描很慢，對結構化數據的搜索卻相對較快（由于結構化數據有一定的結構可以采取一定的搜索算法加快速度），那么把我們的非結構化數據想辦法弄得有一定結構不就行了嗎？

這種想法很天然，卻構成了全文檢索的基本思路，也即將非結構化數據中的一部分信息提取出來，重新組織，使其變得有一定結構，然后對此有一定結構的數據進行搜索，從而達到搜索相對較快的目的。

這部分從非結構化數據中提取出的然后重新組織的信息，我們稱之索引。

這種說法比較抽象，舉幾個例子就很容易明白，比如字典，字典的拼音表和部首檢字表就相當于字典的索引，對每一個字的解釋是非結構化的，如果字典沒有音節表和部首檢字表，在茫茫辭海中找一個字只能順序掃描。然而字的某些信息可以提取出來進行結構化處理，比如讀音，就比較結構化，分聲母和韻母，分別只有幾種可以一一列舉，于是將讀音拿出來按一定的順序排列，每一項讀音都指向此字的詳細解釋的頁數。我們搜索時按結構化的拼音搜到讀音，然后按其指向的頁數，便可找到我們的非結構化數據——也即對字的解釋。

這種先建立索引，再對索引進行搜索的過程就叫全文檢索(full-text search)。

下面這幅圖來自《lucene in action》，但卻不僅僅描述了lucene的檢索過程，而是描述了全文檢索的一般過程。

基于solr全文檢索實現原理(詳談)

全文檢索大體分兩個過程，索引創建(indexing)和搜索索引(search)。

•索引創建：將現實世界中所有的結構化和非結構化數據提取信息，創建索引的過程。

•搜索索引：就是得到用戶的查詢請求，搜索創建的索引，然后返回結果的過程。

于是全文檢索就存在三個重要問題：

1. 索引里面究竟存些什么？(index)

2. 如何創建索引？(indexing)

3. 如何對索引進行搜索？(search)

下面我們順序對每個個問題進行研究。

二、索引里面究竟存些什么

索引里面究竟需要存些什么呢？

首先我們來看為什么順序掃描的速度慢：

其實是由于我們想要搜索的信息和非結構化數據中所存儲的信息不一致造成的。

非結構化數據中所存儲的信息是每個文件包含哪些字符串，也即已知文件，欲求字符串相對容易，也即是從文件到字符串的映射。而我們想搜索的信息是哪些文件包含此字符串，也即已知字符串，欲求文件，也即從字符串到文件的映射。兩者恰恰相反。于是如果索引總能夠保存從字符串到文件的映射，則會大大提高搜索速度。

由于從字符串到文件的映射是文件到字符串映射的反向過程，于是保存這種信息的索引稱為反向索引。

反向索引的所保存的信息一般如下：

假設我的文檔集合里面有100篇文檔，為了方便表示，我們為文檔編號從1到100，得到下面的結構

基于solr全文檢索實現原理(詳談)

左邊保存的是一系列字符串，稱為詞典。

每個字符串都指向包含此字符串的文檔(document)鏈表，此文檔鏈表稱為倒排表(posting list)。

有了索引，便使保存的信息和要搜索的信息一致，可以大大加快搜索的速度。

比如說，我們要尋找既包含字符串“lucene”又包含字符串“solr”的文檔，我們只需要以下幾步：

1. 取出包含字符串“lucene”的文檔鏈表。

2. 取出包含字符串“solr”的文檔鏈表。

3. 通過合并鏈表，找出既包含“lucene”又包含“solr”的文件。

基于solr全文檢索實現原理(詳談)

看到這個地方，有人可能會說，全文檢索的確加快了搜索的速度，但是多了索引的過程，兩者加起來不一定比順序掃描快多少。的確，加上索引的過程，全文檢索不一定比順序掃描快，尤其是在數據量小的時候更是如此。而對一個很大量的數據創建索引也是一個很慢的過程。

然而兩者還是有區別的，順序掃描是每次都要掃描，而創建索引的過程僅僅需要一次，以后便是一勞永逸的了，每次搜索，創建索引的過程不必經過，僅僅搜索創建好的索引就可以了。

這也是全文搜索相對于順序掃描的優勢之一：一次索引，多次使用。

三、如何創建索引

全文檢索的索引創建過程一般有以下幾步：

第一步：一些要索引的原文檔(document)。

為了方便說明索引創建過程，這里特意用兩個文件為例：

文件一：students should be allowed to go out with their friends, but not allowed to drink beer.

文件二：my friend jerry went to school to see his students but found them drunk which is not allowed.

第二步：將原文檔傳給分次組件(tokenizer)。

分詞組件(tokenizer)會做以下幾件事情(此過程稱為tokenize)：

1. 將文檔分成一個一個單獨的單詞。

2. 去除標點符號。

3. 去除停詞(stop word)。

所謂停詞(stop word)就是一種語言中最普通的一些單詞，由于沒有特別的意義，因而大多數情況下不能成為搜索的關鍵詞，因而創建索引時，這種詞會被去掉而減少索引的大小。

英語中挺詞(stop word)如：“the”,“a”，“this”等。

對于每一種語言的分詞組件(tokenizer)，都有一個停詞(stop word)集合。

經過分詞(tokenizer)后得到的結果稱為詞元(token)。

在我們的例子中，便得到以下詞元(token)：

“students”，“allowed”，“go”，“their”，“friends”，“allowed”，“drink”，“beer”，“my”，“friend”，“jerry”，“went”，“school”，“see”，“his”，“students”，“found”，“them”，“drunk”，“allowed”。

第三步：將得到的詞元(token)傳給語言處理組件(linguistic processor)。

語言處理組件(linguistic processor)主要是對得到的詞元(token)做一些同語言相關的處理。

對于英語，語言處理組件(linguistic processor)一般做以下幾點：

1. 變為小寫(lowercase)。

2. 將單詞縮減為詞根形式，如“cars”到“car”等。這種操作稱為：stemming。

3. 將單詞轉變為詞根形式，如“drove”到“drive”等。這種操作稱為：lemmatization。

stemming 和 lemmatization的異同：

•相同之處：stemming和lemmatization都要使詞匯成為詞根形式。

•兩者的方式不同：

?stemming采用的是“縮減”的方式：“cars”到“car”，“driving”到“drive”。

?lemmatization采用的是“轉變”的方式：“drove”到“drove”，“driving”到“drive”。

•兩者的算法不同：

?stemming主要是采取某種固定的算法來做這種縮減，如去除“s”，去除“ing”加“e”，將“ational”變為“ate”，將“tional”變為“tion”。

?lemmatization主要是采用保存某種字典的方式做這種轉變。比如字典中有“driving”到“drive”，“drove”到“drive”，“am, is, are”到“be”的映射，做轉變時，只要查字典就可以了。

•stemming和lemmatization不是互斥關系，是有交集的，有的詞利用這兩種方式都能達到相同的轉換。

語言處理組件(linguistic processor)的結果稱為詞(term)。

在我們的例子中，經過語言處理，得到的詞(term)如下：

“student”，“allow”，“go”，“their”，“friend”，“allow”，“drink”，“beer”，“my”，“friend”，“jerry”，“go”，“school”，“see”，“his”，“student”，“find”，“them”，“drink”，“allow”。

也正是因為有語言處理的步驟，才能使搜索drove，而drive也能被搜索出來。

第四步：將得到的詞(term)傳給索引組件(indexer)。

索引組件(indexer)主要做以下幾件事情：

1. 利用得到的詞(term)創建一個字典。

在我們的例子中字典如下：

term	document id
student	1
allow	1
go	1
their	1
friend	1
allow	1
drink	1
beer	1
my	2
friend	2
jerry	2
go	2
school	2
see	2
his	2
student	2
find	2
them	2
drink	2
allow	2

2. 對字典按字母順序進行排序。

term	document id
allow	1
allow	1
allow	2
beer	1
drink	1
drink	2
find	2
friend	1
friend	2
go	1
go	2
his	2
jerry	2
my	2
school	2
see	2
student	1
student	2
their	1
them	2

•document frequency 即文檔頻次，表示總共有多少文件包含此詞(term)。

•frequency 即詞頻率，表示此文件中包含了幾個此詞(term)。

所以對詞(term) “allow”來講，總共有兩篇文檔包含此詞(term)，從而詞(term)后面的文檔鏈表總共有兩項，第一項表示包含“allow”的第一篇文檔，即1號文檔，此文檔中，“allow”出現了2次，第二項表示包含“allow”的第二個文檔，是2號文檔，此文檔中，“allow”出現了1次。

到此為止，索引已經創建好了，我們可以通過它很快的找到我們想要的文檔。

而且在此過程中，我們驚喜地發現，搜索“drive”，“driving”，“drove”，“driven”也能夠被搜到。因為在我們的索引中，“driving”，“drove”，“driven”都會經過語言處理而變成“drive”，在搜索時，如果您輸入“driving”，輸入的查詢語句同樣經過我們這里的一到三步，從而變為查詢“drive”，從而可以搜索到想要的文檔。

三、如何對索引進行搜索？

到這里似乎我們可以宣布“我們找到想要的文檔了”。

然而事情并沒有結束，找到了僅僅是全文檢索的一個方面。不是嗎？如果僅僅只有一個或十個文檔包含我們查詢的字符串，我們的確找到了。然而如果結果有一千個，甚至成千上萬個呢？那個又是您最想要的文件呢？

打開google吧，比如說您想在微軟找份工作，于是您輸入“microsoft job”，您卻發現總共有22600000個結果返回。好大的數字呀，突然發現找不到是一個問題，找到的太多也是一個問題。在如此多的結果中，如何將最相關的放在最前面呢？

基于solr全文檢索實現原理(詳談)

當然google做的很不錯，您一下就找到了jobs at microsoft。想象一下，如果前幾個全部是“microsoft does a good job at software industry…”將是多么可怕的事情呀。

如何像google一樣，在成千上萬的搜索結果中，找到和查詢語句最相關的呢？

如何判斷搜索出的文檔和查詢語句的相關性呢？

這要回到我們第三個問題：如何對索引進行搜索？

搜索主要分為以下幾步：

第一步：用戶輸入查詢語句。

查詢語句同我們普通的語言一樣，也是有一定語法的。

不同的查詢語句有不同的語法，如sql語句就有一定的語法。

查詢語句的語法根據全文檢索系統的實現而不同。最基本的有比如：and, or, not等。

舉個例子，用戶輸入語句：lucene and learned not hadoop。

說明用戶想找一個包含lucene和learned然而不包括hadoop的文檔。

第二步：對查詢語句進行詞法分析，語法分析，及語言處理。

由于查詢語句有語法，因而也要進行語法分析，語法分析及語言處理。

1. 詞法分析主要用來識別單詞和關鍵字。

如上述例子中，經過詞法分析，得到單詞有lucene，learned，hadoop, 關鍵字有and, not。

如果在詞法分析中發現不合法的關鍵字，則會出現錯誤。如lucene amd learned，其中由于and拼錯，導致amd作為一個普通的單詞參與查詢。

2. 語法分析主要是根據查詢語句的語法規則來形成一棵語法樹。

如果發現查詢語句不滿足語法規則，則會報錯。如lucene not and learned，則會出錯。

如上述例子，lucene and learned not hadoop形成的語法樹如下：

基于solr全文檢索實現原理(詳談)

3. 語言處理同索引過程中的語言處理幾乎相同。

如learned變成learn等。

經過第二步，我們得到一棵經過語言處理的語法樹。

基于solr全文檢索實現原理(詳談)

第三步：搜索索引，得到符合語法樹的文檔。

此步驟有分幾小步：

1.首先，在反向索引表中，分別找出包含lucene，learn，hadoop的文檔鏈表。

2.其次，對包含lucene，learn的鏈表進行合并操作，得到既包含lucene又包含learn的文檔鏈表。

3.然后，將此鏈表與hadoop的文檔鏈表進行差操作，去除包含hadoop的文檔，從而得到既包含lucene又包含learn而且不包含hadoop的文檔鏈表。

4.此文檔鏈表就是我們要找的文檔。

第四步：根據得到的文檔和查詢語句的相關性，對結果進行排序。

雖然在上一步，我們得到了想要的文檔，然而對于查詢結果應該按照與查詢語句的相關性進行排序，越相關者越靠前。

如何計算文檔和查詢語句的相關性呢？

不如我們把查詢語句看作一片短小的文檔，對文檔與文檔之間的相關性(relevance)進行打分(scoring)，分數高的相關性好，就應該排在前面。

那么又怎么對文檔之間的關系進行打分呢？

這可不是一件容易的事情，首先我們看一看判斷人之間的關系吧。

首先看一個人，往往有很多要素，如性格，信仰，愛好，衣著，高矮，胖瘦等等。

其次對于人與人之間的關系，不同的要素重要性不同，性格，信仰，愛好可能重要些，衣著，高矮，胖瘦可能就不那么重要了，所以具有相同或相似性格，信仰，愛好的人比較容易成為好的朋友，然而衣著，高矮，胖瘦不同的人，也可以成為好的朋友。

因而判斷人與人之間的關系，首先要找出哪些要素對人與人之間的關系最重要，比如性格，信仰，愛好。其次要判斷兩個人的這些要素之間的關系，比如一個人性格開朗，另一個人性格外向，一個人信仰佛教，另一個信仰上帝，一個人愛好打籃球，另一個愛好踢足球。我們發現，兩個人在性格方面都很積極，信仰方面都很善良，愛好方面都愛運動，因而兩個人關系應該會很好。

我們再來看看公司之間的關系吧。

首先看一個公司，有很多人組成，如總經理，經理，首席技術官，普通員工，保安，門衛等。

其次對于公司與公司之間的關系，不同的人重要性不同，總經理，經理，首席技術官可能更重要一些，普通員工，保安，門衛可能較不重要一點。所以如果兩個公司總經理，經理，首席技術官之間關系比較好，兩個公司容易有比較好的關系。然而一位普通員工就算與另一家公司的一位普通員工有血海深仇，怕也難影響兩個公司之間的關系。

因而判斷公司與公司之間的關系，首先要找出哪些人對公司與公司之間的關系最重要，比如總經理，經理，首席技術官。其次要判斷這些人之間的關系，不如兩家公司的總經理曾經是同學，經理是老鄉，首席技術官曾是創業伙伴。我們發現，兩家公司無論總經理，經理，首席技術官，關系都很好，因而兩家公司關系應該會很好。

分析了兩種關系，下面看一下如何判斷文檔之間的關系了。

首先，一個文檔有很多詞(term)組成，如search, lucene, full-text, this, a, what等。

其次對于文檔之間的關系，不同的term重要性不同，比如對于本篇文檔，search, lucene, full-text就相對重要一些，this, a , what可能相對不重要一些。所以如果兩篇文檔都包含search, lucene，fulltext，這兩篇文檔的相關性好一些，然而就算一篇文檔包含this, a, what，另一篇文檔不包含this, a, what，也不能影響兩篇文檔的相關性。

因而判斷文檔之間的關系，首先找出哪些詞(term)對文檔之間的關系最重要，如search, lucene, fulltext。然后判斷這些詞(term)之間的關系。

找出詞(term)對文檔的重要性的過程稱為計算詞的權重(term weight)的過程。

計算詞的權重(term weight)有兩個參數，第一個是詞(term)，第二個是文檔(document)。

詞的權重(term weight)表示此詞(term)在此文檔中的重要程度，越重要的詞(term)有越大的權重(term weight)，因而在計算文檔之間的相關性中將發揮更大的作用。

判斷詞(term)之間的關系從而得到文檔相關性的過程應用一種叫做向量空間模型的算法(vector space model)。

下面仔細分析一下這兩個過程：

1. 計算權重(term weight)的過程。

影響一個詞(term)在一篇文檔中的重要性主要有兩個因素：

•term frequency (tf)：即此term在此文檔中出現了多少次。tf 越大說明越重要。

•document frequency (df)：即有多少文檔包含次term。df 越大說明越不重要。

容易理解嗎？詞(term)在文檔中出現的次數越多，說明此詞(term)對該文檔越重要，如“搜索”這個詞，在本文檔中出現的次數很多，說明本文檔主要就是講這方面的事的。然而在一篇英語文檔中，this出現的次數更多，就說明越重要嗎？不是的，這是由第二個因素進行調整，第二個因素說明，有越多的文檔包含此詞(term), 說明此詞(term)太普通，不足以區分這些文檔，因而重要性越低。

這也如我們程序員所學的技術，對于程序員本身來說，這項技術掌握越深越好（掌握越深說明花時間看的越多，tf越大），找工作時越有競爭力。然而對于所有程序員來說，這項技術懂得的人越少越好（懂得的人少df小），找工作越有競爭力。人的價值在于不可替代性就是這個道理。

道理明白了，我們來看看公式：

基于solr全文檢索實現原理(詳談)