我正在读《学习火花》这本书。他们说,当“较小和较大数据集中的每个键都被 Spark 散列到同一分区”时,要使用广播散列连接。
我到底如何知道/确保来自较小和较大数据集的这些键是否被哈希到同一分区?
将这些密钥散列到同一分区意味着什么?为什么这很重要?
这似乎是一个奇怪的引用,我会忽略它。在我看来,“较小”的方面只是相关的。
长话短说:在“广播散列连接”中,不需要对较小的数据集进行分区/散列,因为重点是将较小的数据集整体广播到具有处理分区的执行器的所有工作节点更大的数据集。
措辞不好。