如何处理 Apache Beam 中的数据偏斜?这是可以实现的吗?如果是的话,怎么办?

问题描述 投票:0回答:1

我是一名数据工程师。 我已经使用 PySpark 很长时间了,现在转向 Apache Beam/Dataflow 。

因此,由于这是托管服务,我们不必做太多事情。 但是,有一个问题,我想知道, 我们如何在使用 GroupByKey 和 CoGroupByKey 等 agg 函数时修复数据的偏斜。

在spark中,我们可以使用salting或者启用AQE,但是在Apache Beam中如何实现呢?

我首先考虑使用重新洗牌,但它又会引发同样的问题。 所有密钥应该位于同一个工作人员上,这可能会导致内存不足错误。

我想知道,有什么办法吗? 如果是的话,谁能给我步骤。

谢谢。

python google-cloud-dataflow apache-beam
1个回答
0
投票

是的,在 Apache Beam 中处理偏斜是可以实现的。您可以通过使用“密钥重组”或“组合器”等技术在聚合之前预处理和平衡数据来减轻偏斜。

© www.soinside.com 2019 - 2024. All rights reserved.