如何处理 Apache Beam 中的数据偏斜？这是可以实现的吗？如果是的话，怎么办？

Question

我是一名数据工程师。我已经使用 PySpark 很长时间了，现在转向 Apache Beam/Dataflow 。

因此，由于这是托管服务，我们不必做太多事情。但是，有一个问题，我想知道， 我们如何在使用 GroupByKey 和 CoGroupByKey 等 agg 函数时修复数据的偏斜。

在spark中，我们可以使用salting或者启用AQE，但是在Apache Beam中如何实现呢？

我首先考虑使用重新洗牌，但它又会引发同样的问题。所有密钥应该位于同一个工作人员上，这可能会导致内存不足错误。

我想知道，有什么办法吗？如果是的话，谁能给我步骤。

谢谢。

Answer 1

是的，在 Apache Beam 中处理偏斜是可以实现的。您可以通过使用“密钥重组”或“组合器”等技术在聚合之前预处理和平衡数据来减轻偏斜。