ElasticSearch 解析机制常见用法库 之 Tokenizer常用用法

释放双眼,带上耳机,听听看~!

Tokenizer 译作:“分词”,可以说是ElasticSearch Analysis机制中最重要的部分。

standard tokenizer

标准类型的tokenizer对欧洲语言非常友好, 支持Unicode。

如下是设置:

max_token_length
最大的token集合,即经过tokenizer过后得到的结果集的最大值。如果token的长度超过了设置的长度,将会继续分,默认255 Edge NGram tokenizer

一个名字为 edgeNGram.的分词。

这个分词和 nGram 非常的类似。但是只是相当于 n-grams 的分词的方式,只保留了“从头至尾”的分词。

以下是 edgeNGram 分词的设置:

min_gram
分词后词语的最小长度
1.
max_gram
分词后词语的最大长度
2.
token_chars          
 设置分词的形式,例如,是数字还是文字。elasticsearch将根据分词的形式对文本进行分词。
[] (Keep all characters)

token_chars 所接受的以下形式:

letter 单词,字母 a, b, ï or 京
digit 数字3 or 7
whitespace 例如 " " or "\n"
punctuation 例如 ! or "
symbol 例如 $ or √

1
1

例子:

ElasticSearch 解析机制常见用法库 之 Tokenizer常用用法

Keyword Tokenizer

 keyword  类型的tokenizer 是将一整块的输入数据作为一个单独的分词。

以下是 keyword tokenizer 的类型:

buffer_size
term buffer 的大小. 默认是 to 256.
Letter Tokenizer

一个  letter 类型的
tokenizer分词是在非字母的环境中将数据分开。也就是说,这个分词的结果可以是一整块的的连续的数据内容
 .注意, 这个分词对欧洲的语言非常的友好,但是对亚洲语言十分不友好。

Lowercase Tokenizer

一个 lowercase 类型的分词器可以看做Letter Tokenizer分词和Lower case Token Filter的结合体。即先用Letter Tokenizer分词,然后再把分词结果全部换成小写格式。

NGram Tokenizer

一个nGram.类型的分词器。

以下是 nGram tokenizer  的设置:

min_gram
   分词后词语的最小长度
1.
max_gram
   分词后数据的最大长度
2.
token_chars 
    设置分词的形式,例如数字还是文字。elasticsearch将根据分词的形式对文本进行分词。
[] (Keep all characters)

token_chars 所接受以下的形式:

letter      例如 a, b, ï or 京
digit 例如3 or 7
whitespace 例如 " " or "\n"
punctuation 例如 ! or "
symbol  例如 $ or √

1
1

例子:
ElasticSearch 解析机制常见用法库 之 Tokenizer常用用法

Whitespace Tokenizer

whitespace
 类型的分词将文本通过空格进行分词。

Pattern Tokenizer

一个 pattern类型的分词可以利用正则表达式进行分词。 

pattern
正则表达式的pattern,默认是 \W+.
flags
正则表达式的 flags.
group
哪个group去抽取数据。 默认是 to -1 (split).

IMPORTANT: 正则表达式应该和 
token separators相匹配, 而不是 tokens 它们本身.

使用elasticsearch 不同语言的API 接口时,不必care字符转译问题。

group 设置为-1 (默认情况下) 等价于"split"。wwwUsing group >= 0 selects the matching group as the token. For example, if you have:


1
2
3
4
1pattern = '([^']+)'
2group   = 0
3input   = aaa 'bbb' 'ccc'
4

the output will be two tokens: 'bbb' and 'ccc' (including the ' marks). With the same input but using group=1, the output would be: bbb and ccc (no ' marks).

UAX Email URL

 uax_url_email 类型的分词器和standard 类型的一十分类似,但是是分的  emails 和url

下面是uax_url_email
 tokenizer 的设置:

max_token_length
经过此分词器后所得的数据的最大长度。 默认是 255.

Path Hierarchy Tokenizeredit

 path_hierarchy 路径分词器。例如有如下数据:


1
2
1/something/something/else
2

经过该分词器后会得到如下数据 tokens:


1
2
3
4
1/something
2/something/something
3/something/something/else
4

delimiter
分隔符,默认 /.
replacement
一个选择替代符。 默认是delimiter.
buffer_size
缓存buffer的大小, 默认是 1024.
reverse
是否将分词后的tokens反转, 默认是 false.
skip
Controls initial tokens to skip, defaults to 0.

Classic Tokenizer

可以说是为英语而生的分词器. 这个分词器对于英文的首字符缩写、 公司名字、 email 、 大部分网站域名.都能很好的解决。 但是, 对于除了英语之外的其他语言,都不是很好使。

它的设置:

max_token_length
分词后token的最大长度。 默认是 255. Thai Tokenizer

泰语的分词。

给TA打赏
共{{data.count}}人
人已打赏
安全运维

OpenSSH-8.7p1离线升级修复安全漏洞

2021-10-23 10:13:25

安全运维

设计模式的设计原则

2021-12-12 17:36:11

个人中心
购物车
优惠劵
今日签到
有新私信 私信列表
搜索