使用rdd(scala)进行MapReduce Spark数据处理

问题描述 投票:0回答:1

我有一个大数据,我想对这些数据使用mapRuduce,我没有找到任何任务。 (语言:斯卡拉)

此过程的数据是:

Y,20,01
G,18,40
J,19,10
D,50,10
R,20,01
Z,18,40
T,19,10
Q,50,10
... (2.000+)

对于我想要在地图上加载的所有这些数据:(例如)

Y,20,01
G,18,40
J,19,10     MAP 1
D,50,10
---------------------
R,20,01
Z,18,40     MAP 2
T,19,10
Q,50,10
... (2.000+)

在所有地图,本地我想找到最小列。

在所有映射发送之后,减少本地数据并减少查找全局最小列。

你能帮助我吗?我该怎么办?

scala apache-spark mapreduce rdd
1个回答
© www.soinside.com 2019 - 2024. All rights reserved.