NLucene研究系列(3)－基本机制

释放双眼，带上耳机，听听看~！

Data Flow

NLucene内部的数据流图如下所示，共包含了4种数据流格式：分别是
文本流、Token流、字节流与查询语句对象流。文本流表示了对于索引目标和交互控制的抽象，即用文本流表示了将要索引的文件，用文本流向用户输出信息；在实际的实现中，NLucene中的文本流采用了UCS-2作为编码，以达到适应多种语言文字的处理的目的。Token流是NLucene内部所使用的概念，是对传统文字中的词的概念的抽象，也是NLucene在建立索引时直接处理的最小单位。字节流则是对文件抽象的直接操作的体现，通过固定长度的字节（NLucene定义为8比特位长，后面文件格式将详细叙述）流的处理，将文件操作解脱出来，也做到了与平台文件系统的无关性。查询语句对象流则是仅仅在查询语句解析时用到的概念，它对查询语句抽象，通过类的继承结构反映查询语句的结构，将之传送到查找逻辑来进行查找的操作。

Index File Formats

NLucene中的索引信息以文件形式保存。其逻辑结构如上图所示：
一个Index可以分为若干个Segment（Segment可以合并，详见后文），每个Segment由若干个Document组成，然后再进一步分成Filed, Term, 从而形成了如上的逻辑构图。为了帮助理解，我们可以用熟悉的数据库系统作个隐喻，Segment相当于Database, Document对应于Table, 而Filed就相当于Table中的Column, Term就是Row中具体的内容。NLucene采用了自定义的数据类型将这些索引文件存储到一些列的文件中。由于这种基于bit的数据存储格式，使得索引文件具有良好的跨平台性。

需要注意的是，索引结构不但能建立在文件系统(FSDirectory)中也可以建立在内存(RAMDirectory)中。

Defined Data Type

在介绍索引文件之前，先描述一下几个文件格式中常用的数据类型：

Ø

VInt
，
可变长度的整数，最小一个字节，可以是
2-4
个字节，如果一个字节表示不了的话。不过通常是一个字节就够了；

Ø

Vlong
，可变长度的长整数，最小一个字节，可以是
2-8
个字节，如果一个字节表示不了的话。不过通常是一个字节就够了；

Ø

VString
，由于
Lucene
的开发语言
java
中的字符串是没有像
C
里面一样的
’\0’
的结束符的，所以在文件中记录一个字符串时，在字符串前放一个
VInt
表示字符串的长度；

Ø

UInt32
，
4
个字节的整数；

Ø
UInt64(Long)，8个字节的整数。

详细说明见下表：

Index File Composing

NLucene的索引文件存在一个索引目录中。文件共有10种
：*.f(n), *.fdt, *.fdx, *.fnm, *.frq, *.prx, *.tii, *.tis, deletable, seqments。下面分别描述：

Ø

segments
文件，用来表示索引文件的名字和
Document
的个数。在
SegmentInfos
描述，参见
write()
文件头中的第
1
个
4Byte
是
SegmentName
，在
NLucene
中，
SegmentName
是一个
16
进制的数字，是上面的如
*.fnm
中的
*
部分，每新增加一个
Document
，
SegmentName
会加
1
，所以此部分的值会比实际的
SegmentName
大
1
。文件头中的第
2
个
4Byte
是索引文件的个数，
Lucene
支持在一个目录中存放多个索引文件。文件体中
是一个可重复的部分，重复的次数由文件头中的第
2
部分的大小决定。可重复的部分包括
2
个部分：
SegmentName
和该索引文件中包含的
Document
个数。（从这里可以看出，在
Lucene
中，单个索引文件最多可以包含
2
的
32
方个文件（
4
个
byte
）；

Ø

*.frm
文件，用来保存
FieldName
，注意，此文件只保存非切分部分的
Field
，如通过
Filed.text()
方法进行切分后的
Field
保存在
*.tii, *.tis
中。

具体格式如下：（在
FieldInfos
描述，参见
write()
）

文件头中的
FieldNum
代表索引的
Field
的个数。文件体中描述每个
Field
的信息，个数与文件体中的
FieldNum
相同。每个
Field
的信息包括
2
个部分：
FieldName
，索引的
Field
的名字，
Flag
表示该
Field
是否是索引的（
indexed
）。
0×00
表示未索引，
0×01
表示索引。

Ø

*.fdt
文件，用于存放
Field
的值，每个
Document
是连续存放的，每个
Document
内部的格式如下：（参看
FieldsWriter
文件的
AddDocument()
函数）头部中的
FieldNum
是该
Document
中选择了存储的
Field
的个数（
field.isStroed()==true
），内容体中每个
Filed
中包括
3
个部分。
Pos
：该
Field
在
Document
的顺序，是第几个
Field
Flag
：该
Field
是否是一个
Token
（
field.isToken()==true
）
Value
：该
Field
的值

Ø

*.fdx
文件，用于存放每个
Document
在
fdt
文件中的偏移。

每个
Document
中记录的是一个
Long
型的整数，代表
*.fdt
文件中每个
Document
的偏移（起点
-1
）

Ø

*.tis
文件，用于存放切分过的
Field
中的值。（参看
2
，
fnm
文件）文件格式参看
TermInfosWriter
文件中的
add()
函数）文件头中的
TermNum
是一个
4byte
的
Int
，代表
Term
的个文件体是每个
Term
的重复。每个
Term
包括
7
个域。
Start
：该
Term
的偏移
Content
：该
Term
的值
FieldPos
：该
Term
出现的顺序，即是第几个
Field
Freq
：该
Term
出现的频率
FreqPointer
：
Rreq
在
*.frq
文件中的偏移
ProxPointer
：
Prox
在
*.prx
文件中的偏移
IndexPointer
：
Index
在
*.tii
文件中的偏移（我不敢确定），该项是可选项，只在
isIndex==true
是出现。（不明白这个的意思，
isIndex
指什么）也可以参看
SegmentTermEnum
中的
next()
函数，这是一个读单个
term
的函数。

Ø

deletable
文件，用来存放被删除的文件名。文件格式参看
IndexWriter
中的
readDeleteableFiles()
函数）文件体中
是一个
4byte
的整数，代表被删除的文件个数文件体中是一组被删除的文件名。还有
*.f(n)
是存放
Norm
的文件
,*.tii
是与
*.tis
相对的，
*.frq
（存放词频的文件），
*.prx
（存放词频的位置的文件，与
*.frq
文件联合使用。

{{userData.name}}已认证

NLucene研究系列(3)－基本机制

Data Flow

Index File Formats

Defined Data Type

Index File Composing

OpenSSH-8.7p1离线升级修复安全漏洞

设计模式的设计原则

{{userData.name}}已认证

Data Flow

Index File Formats

Defined Data Type

Index File Composing

Related posts:

OpenSSH-8.7p1离线升级修复安全漏洞

设计模式的设计原则

mysql-数据库高并发优化配置

MySQL 处理海量数据时的一些优化查询速度方法

MySQL批量SQL插入性能优化

史上最全面的mysql调优(下)：高级篇