apache-beam 相关问题

Apache Beam是用于批处理和流处理的统一SDK。它允许使用特定于Beam的DSL指定大规模数据处理工作流程。 Beam工作流可以在不同的运行时执行,如Apache Flink,Apache Spark或Google Cloud Dataflow(云服务)。

从 Kafka 读取 Beam 管道时水印没有进展

我在使用用 Kotlin 编写并部署到从 KafkaIO 源读取的 GCP Dataflow 的 Beam (v2.58.1) 管道时遇到问题。无论我尝试什么,管道总是表现出相同的

回答 1 投票 0

Apache Beam:修复数据流管道中的“PBegin 对象没有属性窗口”错误

我正在从事 Apache Beam Dataflow 作业,以在 Firestore 中存储丰富的流数据。如果处理过程中丢失任何事件数据,我会将这些记录推送到 BigQuery 表中。下面,我分享了...

回答 1 投票 0

如何使用gcp数据流将apache beam中的数据写入bigquery表?

我正在尝试在 GCP Dataflow 上使用 Apache Beam 运行以下程序。该程序应该读取 CSV 文件,进行一些转换,如求和、最大值和连接。然后写入BQ表。 直到第 4 步我得到了

回答 1 投票 0

使用 Python ApacheBeam for DataFlow 时如何避免 TypeError?

所以我在Python中有一个非常基本的管道,使用apache beam和google cloud从云存储中获取数据,删除一些列,然后将其移动到BigQuery中,直到最后一点。 W...

回答 2 投票 0

HA 模式下 JobManager 故障转移后 Flink 作业两次处理 Kafka 消息

我正在使用 Beam 的 KafkaIO.Read 函数创建流处理管道,并将其作为 Flink 作业运行。简单来说,该作业从 Kafka 接收消息并将其插入数据库。

回答 1 投票 0

maven - 执行Java类时发生异常,ClassNotFoundException

我正在尝试创建并运行 Apache Beam 管道,但每当运行 mvncompile exec:java -D"exec.mainClass"="App" 时,我都会收到此错误。即使我没有收到错误......

回答 1 投票 0

在 Java Beam SDK 中从 Dataflow Runner v1 切换到 v2 时出现性能问题和工作线程崩溃

我一直在使用 Dataflow Runner v1 和 Java Beam SDK 运行数据管道,没有任何问题。最近,我们尝试将管道迁移到 Runner v2,但遇到了以下问题...

回答 1 投票 0

重新启动 SpannerIO 的 ChangeStream 到 GCS (TEXT/JSON) 管道出现错误

我已经设置了此管道:https://cloud.google.com/dataflow/docs/guides/templates/provided/cloud-spanner-change-streams-to-cloud-storage,作者: 将 startTime 硬编码为特定时间(不使用

回答 1 投票 0

如何在 Apache Beam 步骤中并行化 HTTP 请求?

我有一个在 Google Dataflow 上运行的 Apache Beam 管道,其工作相当简单: 它从 Pub/Sub 读取单个 JSON 对象 解析它们 并通过 HTTP 将它们发送到某个 API 这个API需要...

回答 2 投票 0

使用 gcp 数据流并以 Kafka 作为源运行光束流管道时出现内存不足问题

我正在尝试在Python中设置数据流束流管道,其中源是kafka,接收器是postgres表(请参阅下面的管道代码)。 Kafka 主题有多个分区,其中有多个

回答 1 投票 0

apache beam 中的键值

我在 apache beam 中的输出是 (['key'],{'id':名称}) 预期的 ('key',{'id':名称}) 如何使用apache beam中的Map进行转换以获得预期的输出

回答 2 投票 0

如何在 GCP Dataflow 中使用 python 管道代码读取 BigQuery 身份验证视图

我们正在尝试从 BigQuery 授权视图(GCP PROJECT2)中提取数据,该视图是使用 Dataflow + apache beam python 创建的,指向源视图(在 GCP PROJECT 1 中可用)...

回答 1 投票 0

引入窗口时遇到此 AvroRuntimeException。在 Beam 中使用带有窗口的 GenericRecord 时如何解决此问题?

问题: 我在尝试在 Apache Beam 中使用 Avro 的 GenericRecord 窗口时遇到错误。我收到的错误是: 代码片段: 这是产生错误的代码: PCcollectio...

回答 1 投票 0

传递给 ParDo 函数时变量/结构体值变为 nil

嗨,我正在尝试编写一个梁管道,我们首先从bigquery读取数据,然后对每一行进行转换(如果值存在于地图中,则使用它,否则将值插入地图中并使用它)。 .

回答 1 投票 0

在 Apache Beam [Dataflow] 中组合两个流时需要哪些窗口约束?

我有一个 ETL 流程,需要在一个键上组合两个 Pub/Sub 消息并将它们写入 BigQuery。其中一种消息类型是父消息类型;我正在处理付款处理,这是一个或...

回答 1 投票 0

Apache Beam Pipeline KafkaIO - 手动提交偏移量

我有一个 Beam 管道来使用多个阶段(PTransforms)的流事件来处理它们。看下面的代码, pipeline.apply("从流中读取数据", StreamReader.rea...

回答 2 投票 0

无法将 KafkaIO 与 Flink Runner 一起使用

我正在尝试使用 KafkaIO 与 Flink Runner for Beam 版本 2.45.0 一起读取 我看到以下相同的问题: org.apache.flink.client.program.ProgramInitationException:主要方法

回答 2 投票 0

在 Apache Beam Java 中是否有任何方法可以更新插入(更新 + 插入)BigQuery 表中的行

apache beam java 有什么方法可以更新 BigQuery 表中的行吗?我的用例是我每天运行一次数据流作业,它从一个 BQ 表中获取数据,转换后,它写入...

回答 1 投票 0

Google Dataflow 限制所有工作的工人总数

我们正在使用 Google Dataflow (Apache Beam + Java) 运行批处理数据作业(连接到 BigQuery)。为了限制成本,我们使用 BigQuery 预留(例如,预留 3000 个(只是一些

回答 1 投票 0

如何使用 AWS Managed Apache Flink 运行 Python Apache Beam?

我正在尝试弄清楚如何使用 AWS Managed Apache Flink 作为运行程序来使用 Python 运行简单的 Apache Beam 由于以下异常,应用程序甚至无法启动,而还有...

回答 1 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.