是什么导致数据新鲜度在数据流中不断增加?

问题描述 投票:0回答:1

我们有一个Dataflow作业,它具有较低的系统延迟和较高的“数据新鲜度”(或“数据水印滞后”)。

从2.12升级到Beam 2.15(从2.12升级后,我们看到该指标一直在增加,这可能是由于管道中的某些东西引起的)。但是,事实并非如此,因为所有数据都被消耗了(来自PubSub订阅)。许可似乎还可以,因为我们可以使用(除非那还不够?)。

我们还检查了管道所有组件上的单个水印,并且它们[[都正常(最近)。

Increasing data watermark

谢谢!

google-cloud-dataflow apache-beam google-cloud-pubsub
1个回答
0
投票
这确实很奇怪。这是您可能会看到此信息的一些原因:

    [估计水印时,新的Beam SDK或Dataflow中可能存在错误。
  1. 可能是您更新了管道的拓扑,并遇到了与旧/新拓扑的水印计算有关的错误。
  2. 作业可能确实卡住了,您可能错过了一些实际上并没有使数据通过管道的数据。
  • [如果您看到此建议,我的建议是打开一个具有Dataflow支持的支持案例。
  • © www.soinside.com 2019 - 2024. All rights reserved.