NLucene研究系列(5)-Analysis

释放双眼,带上耳机,听听看~!

Analysis 

Analysis模块主要提供了文本解析的功能,输入为TextReader的字符流,最终解析成TokenStream形式的结果返回给调用端。由前文的NLucene架构图可以看出,Analysis主要为Index和QueryParser模块提供解析服务,分别是在Indexing原始文件和解析搜索语句中的Term的过程中。

要了解这个包,首先需要明确几个概念:

Ø
        
Token:

Ø
        
TokenType:

Ø
        
TokenStream: TokenStream

Token
迭代器
;

Ø
        
Analyzer:
一个
Analyzer
是一个
TokenStream
工厂
;

Ø
        
Tokenizer:

Ø
        
TokenFilter:
类图如下所示:
Analyzer类族,作为Analyzer模块对外提供的接口,定义了基类Analyzer, 子类SimpleAnalyzer(简单分析器,只分词),StopAnalyzer(定义了StopTable,过滤Noise Word)以及标准分析器StandardAnalyzer。
然后定义了基类TokenStream,Next()为核心方法。此处应用了Decorate模式。

给TA打赏
共{{data.count}}人
人已打赏
安全运维

OpenSSH-8.7p1离线升级修复安全漏洞

2021-10-23 10:13:25

安全运维

设计模式的设计原则

2021-12-12 17:36:11

个人中心
购物车
优惠劵
今日签到
有新私信 私信列表
搜索