基于lucene的案例开发:搜索索引

释放双眼,带上耳机,听听看~!

转载请注明出处:http://www.voidcn.com/article/p-suckdiby-bkz.html

      此事例中的索引数据来自于上一篇博客创建的索引,索引中包含两篇文档,每一篇文档中有两个域 name 、 content 。

索引搜索demo

      还是老样子在介绍之前先看一个简单索引搜索 demo程序。


1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
1 /**  
2 *@Description:  索引检索demo
3 */
4package com.lulei.lucene.study;  
5
6import java.io.File;
7
8import org.apache.lucene.analysis.Analyzer;
9import org.apache.lucene.analysis.standard.StandardAnalyzer;
10import org.apache.lucene.document.Document;
11import org.apache.lucene.index.DirectoryReader;
12import org.apache.lucene.queryparser.classic.QueryParser;
13import org.apache.lucene.search.IndexSearcher;
14import org.apache.lucene.search.Query;
15import org.apache.lucene.search.TopDocs;
16import org.apache.lucene.store.Directory;
17import org.apache.lucene.store.FSDirectory;
18import org.apache.lucene.util.Version;
19  
20public class SearchIndex {
21
22  public static void main(String[] args) {
23      Directory directory = null;
24      try {
25          //索引硬盘存储路径
26          directory = FSDirectory.open(new File("D://study/index/testindex"));
27          //读取索引
28          DirectoryReader dReader = DirectoryReader.open(directory);
29          //创建索引检索对象
30          IndexSearcher searcher = new IndexSearcher(dReader);
31          //指定分词技术,这里采用的语言处理模块要和创建索引的时候一致,否则检索的结果很不理想
32          Analyzer analyzer = new StandardAnalyzer(Version.LUCENE_43);
33          //创建查询query,搜索词为“空间向量”
34          QueryParser parse = new QueryParser(Version.LUCENE_43, "content", analyzer);
35          Query query = parse.parse("空间向量");
36          //检索索引,获取符合条件的前10条记录
37          TopDocs topDocs = searcher.search(query, 10);
38          if (topDocs != null) {
39              System.out.println("总共查找到 " +  topDocs.totalHits + " 条符合条件的记录");
40              //循环输出记录内容
41              for (int i = 0; i < topDocs.scoreDocs.length; i++) {
42                  Document doc = searcher.doc(topDocs.scoreDocs[i].doc);
43                  System.out.println("第" + (i + 1) + "条内容为--\tname:\t" + doc.get("name") + "\tcontent:\t" + doc.get("content"));
44              }
45          }
46          //关闭资源
47          dReader.close();
48          directory.close();
49      } catch (Exception e) {
50          e.printStackTrace();
51      }
52  }
53}
54

上述demo程序运行结果截图如下:

基于lucene的案例开发:搜索索引

      可以看出关键词 “空间向量” 的搜索结果为索引中的第二个文档,可以通过document.get方法可以获取对应的域值。

搜索索引核心类

      在上述索引搜索过程中,用到了几个核心类:DirectoryDirectoryReaderIndexSearcherAnalyzerQueryTopDocs,上一篇介绍过的核心类这里就不再继续介绍了,这里就介绍一下之前没有介绍过的类。

DirectoryReader

      DirectoryReader用于读取索引,创建的dReader对象用于创建用于搜索的IndexSearcher对象。

IndexSearcher

      IndexSearcher用于索引的搜索,这个类公开了几个搜索方法,它是连接索引的中心环节;可以将IndexSearcher类看做成一个以只读打开索引的类,关于IndexSearcher的更深层次的内容,将在后面博客中介绍。

Query

      Lucene中含有许多具体Query(查询)子类,Query子类有:TermQuery、BooleanQuery、PhraseQuery、PrefixQuery、PhrasePrefixQuery、TermRangQuery、NumericRangeQuery、FilteredQuery、SpanQuery等,这些子类也将会在以后的博客中一一介绍。

TopDocs

      TopDocs类是一个简单的指针容器,指针一般指向前N个排名的搜索结果,搜索结果即匹配查询条件的文档。

      到目前为止,我们可以用Lucene实现一个简单的索引创建、搜索事例,在后面的几篇博客中,我将会逐一介绍分词技术、Query众多子类、IndexSearcher的搜索API等,这几部分可以通过源代码的阅读来理解。

给TA打赏
共{{data.count}}人
人已打赏
安全运维

OpenSSH-8.7p1离线升级修复安全漏洞

2021-10-23 10:13:25

安全运维

设计模式的设计原则

2021-12-12 17:36:11

个人中心
购物车
优惠劵
今日签到
有新私信 私信列表
搜索