使用spark与ElasticSearch交互

安全运维
21年12月11日
编辑

aqzt

释放双眼，带上耳机，听听看~！

使用 elasticsearch-hadoop 包，可在 github 中搜索到该项目

项目地址

example


1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
1import org.elasticsearch.spark._

2import org.elasticsearch.spark.sql._

3

4val conf = new SparkConf()

5    .set(&quot;es.nodes&quot;,&quot;192.168.47.155&quot;)

6    .set(&quot;es.port&quot;,&quot;9200&quot;)

7    .setMaster(&quot;spark://...&quot;)

8    .setAppName(&quot;es_hdfs&quot;)

9

10val sc = new SparkConf(sc)

11

12//查询合作方为abc的数据

13val query = &quot;&quot;&quot;{&quot;query&quot;:{&quot;match&quot;:{&quot;activity.partnerCode&quot;: &quot;abc&quot;}}}&quot;&quot;&quot;

14

15//将在es中的查询结果转化为rdd/dataFrame

16val esRdd = sc.esRDD(s&quot;index/type&quot;,query)

17//直接读入全部数据

18val esDf = sqlContext.esDF(s&quot;index/type&quot;)

19

20//对读入rdd/dataFrame进行操作

21esRdd.map(r=&gt;{...})

22esDf.flatMap(r=&gt;{......})

23

24//将dataFrame/rdd写入es

25esRdd.saveToEs(&quot;index/type&quot;)

26resultDf.saveToEs(&quot;index/type&quot;)

27

28

Tips

从es读入数据时，读取的并发度由es的分片数决定。

{{userData.name}}已认证

使用spark与ElasticSearch交互

example

Tips

OpenSSH-8.7p1离线升级修复安全漏洞

设计模式的设计原则

{{userData.name}}已认证

example

Tips

Related posts:

OpenSSH-8.7p1离线升级修复安全漏洞

设计模式的设计原则

DEVOPS-在K8S生产集群上构建SpringBoot应用

07 YAPI/基础设施 - DevOps之路

带你玩转kubernetes-k8s（第53篇-Kubernetes API版本的演进策略）

Dockerfile