ElasticSearch的Mapping之字段类型

释放双眼，带上耳机，听听看~！

es支持大多数java里面的数据类型：
（一）核心数据类型：
（1）string：默认会被分词，一个完整示例如下

Java代码


1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
1 &quot;status&quot;: {

2          &quot;type&quot;:  &quot;string&quot;, //字符串类型

3          &quot;index&quot;: &quot;analyzed&quot;//分词，不分词是：not_analyzed ，设置成no，字段将不会被索引

4          &quot;analyzer&quot;:&quot;ik&quot;//指定分词器

5          &quot;boost&quot;:1.23//字段级别的分数加权

6           &quot;doc_values&quot;:false//对not_analyzed字段，默认都是开启，分词字段不能使用，对排序和聚合能提升较大性能，节约内存

7            &quot;fielddata&quot;:{&quot;format&quot;:&quot;disabled&quot;}//针对分词字段，参与排序或聚合时能提高性能，不分词字段统一建议使用doc_value

8            &quot;fields&quot;:{&quot;raw&quot;:{&quot;type&quot;:&quot;string&quot;,&quot;index&quot;:&quot;not_analyzed&quot;}} //可以对一个字段提供多种索引模式，同一个字段的值，一个分词，一个不分词

9            &quot;ignore_above&quot;:100 //超过100个字符的文本，将会被忽略，不被索引

10            &quot;include_in_all&quot;:ture//设置是否此字段包含在_all字段中，默认是true，除非index设置成no选项

11            &quot;index_options&quot;:&quot;docs&quot;//4个可选参数docs（索引文档号） ,freqs（文档号+词频），positions（文档号+词频+位置，通常用来距离查询），offsets（文档号+词频+位置+偏移量，通常被使用在高亮字段）分词字段默认是position，其他的默认是docs

12            &quot;norms&quot;:{&quot;enable&quot;:true,&quot;loading&quot;:&quot;lazy&quot;}//分词字段默认配置，不分词字段：默认{&quot;enable&quot;:false}，存储长度因子和索引时boost，建议对需要参与评分字段使用 ，会额外增加内存消耗量

13            &quot;null_value&quot;:&quot;NULL&quot;//设置一些缺失字段的初始化值，只有string可以使用，分词字段的null值也会被分词

14            &quot;position_increament_gap&quot;:0//影响距离查询或近似查询，可以设置在多值字段的数据上火分词字段上，查询时可指定slop间隔，默认值是100

15            &quot;store&quot;:false//是否单独设置此字段的是否存储而从_source字段中分离，默认是false，只能搜索，不能获取值

16            &quot;search_analyzer&quot;:&quot;ik&quot;//设置搜索时的分词器，默认跟ananlyzer是一致的，比如index时用standard+ngram，搜索时用standard用来完成自动提示功能

17            &quot;similarity&quot;:&quot;BM25&quot;//默认是TF/IDF算法，指定一个字段评分策略，仅仅对字符串型和分词类型有效

18            &quot;term_vector&quot;:&quot;no&quot;//默认不存储向量信息，支持参数yes（term存储），with_positions（term+位置）,with_offsets（term+偏移量），with_positions_offsets(term+位置+偏移量) 对快速高亮fast vector highlighter能提升性能，但开启又会加大索引体积，不适合大数据量用

19        }

20

21

（2）数字类型主要如下几种：
long：64位存储
integer：32位存储
short：16位存储
byte：8位存储
double：64位双精度存储
float：32位单精度存储
支持参数：


1
2
3
4
5
6
7
8
9
10
11
1coerce：true/false 如果数据不是干净的，将自动会将字符串转成合适的数字类型，字符串会被强转成数字，浮点型会被转成整形，经纬度会被转换为标准类型

2boost：索引时加权因子

3doc_value：是否开启doc_value

4ignore_malformed：false（错误的数字类型会报异常）true（将会忽略）

5include_in_all：是否包含在_all字段中

6index:not_analyzed默认不分词

7null_value：默认替代的数字值

8precision_step：16 额外存储对应的term，用来加快数值类型在执行范围查询时的性能，索引体积相对变大

9store：是否存储具体的值

10

11

（3）复合类型
数组类型：没有明显的字段类型设置，任何一个字段的值，都可以被添加0个到多个，要求，他们的类型必须一致：
对象类型：存储类似json具有层级的数据
嵌套类型：支持数组类型的对象Aarray[Object]，可层层嵌套
（4）地理类型
geo-point类型：支持经纬度存储和距离范围检索
geo-shape类型：支持任意图形范围的检索，例如矩形和平面多边形
（5）专用类型
ipv4类型：用来存储IP地址，es内部会转换成long存储
completion类型：使用fst有限状态机来提供suggest前缀查询功能
token_count类型：提供token级别的计数功能
mapper-murmur3类型：安装sudo bin/plugin install mapper-size插件，可支持_size统计_source数据的大小
附件类型：需要https://github.com/elastic/elasticsearch-mapper-attachments 开源es插件支持，可存储office，html等类型
（6）多值字段：
一个字段的值，可以通过多种分词器存储，使用fields参数，支持大多数es数据类型
（二）Mapping 参数列表，上面文章出现过的不再解释：


序号	名称	解释
1	copy_to	与solr里面的copy_field字段功能一样，支持拷贝某个字段的值到集中的一个字段里面
2	properties	mapping type，对象字段和嵌套字段可以包含子字段，这些属性可以被添加进去，例子如下

官网文档：https://www.elastic.co/guide/en/elasticsearch/reference/current/mapping-types.html\#_multi_fields_2

{{userData.name}}已认证

ElasticSearch的Mapping之字段类型

OpenSSH-8.7p1离线升级修复安全漏洞

设计模式的设计原则

{{userData.name}}已认证

Related posts:

OpenSSH-8.7p1离线升级修复安全漏洞

设计模式的设计原则

Ubuntu上NFS的安装配置

Nutch+Hadoop集群搭建

LAMP环境搭建

docker安装mysql