Apache Beam是用于批处理和流处理的统一SDK。它允许使用特定于Beam的DSL指定大规模数据处理工作流程。 Beam工作流可以在不同的运行时执行,如Apache Flink,Apache Spark或Google Cloud Dataflow(云服务)。
我在使用用 Kotlin 编写并部署到从 KafkaIO 源读取的 GCP Dataflow 的 Beam (v2.58.1) 管道时遇到问题。无论我尝试什么,管道总是表现出相同的
Apache Beam:修复数据流管道中的“PBegin 对象没有属性窗口”错误
我正在从事 Apache Beam Dataflow 作业,以在 Firestore 中存储丰富的流数据。如果处理过程中丢失任何事件数据,我会将这些记录推送到 BigQuery 表中。下面,我分享了...
如何使用gcp数据流将apache beam中的数据写入bigquery表?
我正在尝试在 GCP Dataflow 上使用 Apache Beam 运行以下程序。该程序应该读取 CSV 文件,进行一些转换,如求和、最大值和连接。然后写入BQ表。 直到第 4 步我得到了
使用 Python ApacheBeam for DataFlow 时如何避免 TypeError?
所以我在Python中有一个非常基本的管道,使用apache beam和google cloud从云存储中获取数据,删除一些列,然后将其移动到BigQuery中,直到最后一点。 W...
HA 模式下 JobManager 故障转移后 Flink 作业两次处理 Kafka 消息
我正在使用 Beam 的 KafkaIO.Read 函数创建流处理管道,并将其作为 Flink 作业运行。简单来说,该作业从 Kafka 接收消息并将其插入数据库。
maven - 执行Java类时发生异常,ClassNotFoundException
我正在尝试创建并运行 Apache Beam 管道,但每当运行 mvncompile exec:java -D"exec.mainClass"="App" 时,我都会收到此错误。即使我没有收到错误......
在 Java Beam SDK 中从 Dataflow Runner v1 切换到 v2 时出现性能问题和工作线程崩溃
我一直在使用 Dataflow Runner v1 和 Java Beam SDK 运行数据管道,没有任何问题。最近,我们尝试将管道迁移到 Runner v2,但遇到了以下问题...
重新启动 SpannerIO 的 ChangeStream 到 GCS (TEXT/JSON) 管道出现错误
我已经设置了此管道:https://cloud.google.com/dataflow/docs/guides/templates/provided/cloud-spanner-change-streams-to-cloud-storage,作者: 将 startTime 硬编码为特定时间(不使用
如何在 Apache Beam 步骤中并行化 HTTP 请求?
我有一个在 Google Dataflow 上运行的 Apache Beam 管道,其工作相当简单: 它从 Pub/Sub 读取单个 JSON 对象 解析它们 并通过 HTTP 将它们发送到某个 API 这个API需要...
使用 gcp 数据流并以 Kafka 作为源运行光束流管道时出现内存不足问题
我正在尝试在Python中设置数据流束流管道,其中源是kafka,接收器是postgres表(请参阅下面的管道代码)。 Kafka 主题有多个分区,其中有多个
我在 apache beam 中的输出是 (['key'],{'id':名称}) 预期的 ('key',{'id':名称}) 如何使用apache beam中的Map进行转换以获得预期的输出
如何在 GCP Dataflow 中使用 python 管道代码读取 BigQuery 身份验证视图
我们正在尝试从 BigQuery 授权视图(GCP PROJECT2)中提取数据,该视图是使用 Dataflow + apache beam python 创建的,指向源视图(在 GCP PROJECT 1 中可用)...
引入窗口时遇到此 AvroRuntimeException。在 Beam 中使用带有窗口的 GenericRecord 时如何解决此问题?
问题: 我在尝试在 Apache Beam 中使用 Avro 的 GenericRecord 窗口时遇到错误。我收到的错误是: 代码片段: 这是产生错误的代码: PCcollectio...
嗨,我正在尝试编写一个梁管道,我们首先从bigquery读取数据,然后对每一行进行转换(如果值存在于地图中,则使用它,否则将值插入地图中并使用它)。 .
在 Apache Beam [Dataflow] 中组合两个流时需要哪些窗口约束?
我有一个 ETL 流程,需要在一个键上组合两个 Pub/Sub 消息并将它们写入 BigQuery。其中一种消息类型是父消息类型;我正在处理付款处理,这是一个或...
Apache Beam Pipeline KafkaIO - 手动提交偏移量
我有一个 Beam 管道来使用多个阶段(PTransforms)的流事件来处理它们。看下面的代码, pipeline.apply("从流中读取数据", StreamReader.rea...
无法将 KafkaIO 与 Flink Runner 一起使用
我正在尝试使用 KafkaIO 与 Flink Runner for Beam 版本 2.45.0 一起读取 我看到以下相同的问题: org.apache.flink.client.program.ProgramInitationException:主要方法
在 Apache Beam Java 中是否有任何方法可以更新插入(更新 + 插入)BigQuery 表中的行
apache beam java 有什么方法可以更新 BigQuery 表中的行吗?我的用例是我每天运行一次数据流作业,它从一个 BQ 表中获取数据,转换后,它写入...
我们正在使用 Google Dataflow (Apache Beam + Java) 运行批处理数据作业(连接到 BigQuery)。为了限制成本,我们使用 BigQuery 预留(例如,预留 3000 个(只是一些
如何使用 AWS Managed Apache Flink 运行 Python Apache Beam?
我正在尝试弄清楚如何使用 AWS Managed Apache Flink 作为运行程序来使用 Python 运行简单的 Apache Beam 由于以下异常,应用程序甚至无法启动,而还有...