数据局部性在Hadoop中到底意味着什么?

问题描述 投票:1回答:1

[许多Hadoop教程站点(即https://techvidvan.com/tutorials/data-locality-in-hadoop-mapreduce/)定义的数据局部性指出:“ Hadoop中的数据局部性是将计算移至实际数据所在位置附近的过程,而不是将大数据移至计算中。这使总体上最小化网络拥塞。“

我可以理解,让数据所在的节点处理这些数据的计算,而不是四处移动数据,将是高效的。但是,“将计算移近实际数据所在的位置”是什么意思?这是否意味着如果数据位于德国的服务器上,那么最好使用法国的服务器对这些数据进行计算,而不是使用新加坡的服务器进行计算,因为法国比新加坡更靠近德国?

hadoop mapreduce
1个回答
0
投票

通常人们以不同的角度谈论此问题,尤其是在Hadoop上下文中。

假设您有一个由5个节点组成的集群,您将文件存储在此处,并且需要对其进行计算。

使用数据局部性,您尝试使计算在存储数据的节点上进行(而不是例如具有可用计算资源的第一个节点)。

这可以减少网络负载。


很好的认识到,在许多新的基础架构中,网络不是瓶颈,因此您将继续了解有关计算和存储解耦的更多信息。

© www.soinside.com 2019 - 2024. All rights reserved.