apache-beam 相关问题

Apache Beam是用于批处理和流处理的统一SDK。它允许使用特定于Beam的DSL指定大规模数据处理工作流程。 Beam工作流可以在不同的运行时执行,如Apache Flink,Apache Spark或Google Cloud Dataflow(云服务)。

为什么我的 Apache Beam Dataflow 管道不写入 BigQuery?

我正在开发一个 Apache Beam 管道,用于处理数据并将其写入 BigQuery。使用 DirectRunner 时管道工作得很好,但是当我切换到 DataflowRunner 时,它就完成了

回答 1 投票 0

Apache 光束初始化器

在我的数据流作业中,我需要在实际处理开始之前初始化配置工厂并在审核日志中记录某些消息。 我已经放置了Config工厂初始化代码+审计日志...

回答 2 投票 0

AWS EMR-EC2 集群上的 apache-beam 安装问题

我启动了一个AWS EMR-EC2集群,我在让apache-beam的sparkrunner工作时遇到问题。 我有一个将使用 apache-beam 的 python 脚本。我尝试过 aws emr add-steps 或 ssh ...

回答 1 投票 0

Apache Beam 并在满足条件时关闭窗口

在 Apache Beam 的 Streaming 作业中,我可以创建一个持续 7 天的 IntervalWindow。 IntervalWindow 间隔 = new IntervalWindow(timestamp, Duration.standardDays(7)); 但有没有办法

回答 1 投票 0

如何将元素与键一起批处理

我正在尝试将第一个值转换为第二个值: PC合集>> PC合集>>> 输入值已经

回答 1 投票 0

JDBCIO.write忽略批量大小并插入单条记录

我正在使用 Java Dataflow 将大量数据插入 Cloud SQL。在性能测试中观察到 Apache Beam 没有批量插入记录。相反,每一行都会触发一个插入查询。

回答 1 投票 0

光束流管道不写入窗口文件

我正在尝试在本地计算机上从 Google 运行此示例。我正在使用 PubSub 模拟器和 Beam 2.60.0,通过 --runner=DirectRunner 执行。 ... 选项.setStreaming(true); 选项.setPubsubRoot...

回答 1 投票 0

Apache_beam 写入大查询 json 负载错误

在 Dataflow 中编写一个管道,将流拆分为由数据中的 event_name 和 event_date 动态命名的表。 正在创建表,名称正确,但数据是

回答 1 投票 0

Apoache_beam 写入大查询 json 负载错误

在 Dataflow 中编写一个管道,将流拆分为由数据中的 event_name 和 event_date 动态命名的表。 正在创建表,名称正确,但数据是

回答 1 投票 0

GCP 数据流的 Python 脚本在 GitHub 操作流中失败

当我尝试将数据从 Pub/Sub 写入 BigQuery 时,我遇到了 GitHub 操作工作流程上的 GCP Dataflow 的 python 脚本问题。 它返回与写入 Big Query 相关的错误。 蟒蛇

回答 1 投票 0

模块“apache_beam.io.gcp.internal.clients.bigquery”没有属性“TableFieldSchema”?

我正在尝试从 json 文件解析架构,该文件包含 bigquery 表的架构文件。 我正在使用以下代码。 导入 apache_beam 作为光束 从 apache_beam.io.gcp.bigquery 导入

回答 2 投票 0

使用 Python 的 Apache Beam。尝试验证 Apache Kafka SASL_SSL OAUTHBEARER 时出错

我正在使用 Python 3.8 在 Apache Beam 2.45.0 中开发管道。 我需要使用 ReadfromKafka 方法从 Apache Kafka 读取数据。 Apache Kafka 服务器通过 SASL_SSL 协议进行安全保护,使用

回答 1 投票 0

在 BigQueryIO.write() 操作之后执行进程

我有一个以 BigQuery 表作为接收器的管道。我需要在数据写入 BigQuery 后执行一些步骤。这些步骤包括对该表执行查询、从 i 读取数据...

回答 3 投票 0

apache beam 仅用一列比较两个数据集

我的任务是在数据流运行程序中比较 apache beam 中的两个数据集并输出三个阶段,一个在数据集 1 中常见,另一个仅在数据集 1 中,然后仅在数据集 2 中。 我尝试使用 CoGroupByKey

回答 1 投票 0

使用 Apache Beam 写入 Dataflow 管道上的 BigQuery 表时“TypeError: isinstance() arg 2 必须是类型、类型元组或联合”

我正在 Pthon 中使用 apache-beam==2.57.0 和 google-cloud-bigquery==3.26.0 开发数据流管道,从 Cloud SQL 数据库读取数据并将其写入 BigQuery 表。脚本运行 int...

回答 1 投票 0

为什么 BeamRunPythonPipelineOperator 无法跟踪数据流作业状态,一直等到作业结束而不返回数据流日志?

我正在 Cloud Composer (composer-2.9.8-airflow-2.9.3) 上的 Airflow 中使用 BeamRunPythonPipelineOperator() 触发数据流管道。作业已成功提交到 Dataflow,但是

回答 1 投票 0

运行时错误:NotImplementedError [运行'BatchElements(messages)']同时使用to_dataframe运行流式apache beam管道

您好,我仍处于 Apache Beam 的学习阶段,下面是我编写的脚本。它从 pub-sub 读取并写入 BigQuery。但是我收到错误 RuntimeError: NotImplementedError [在运行 '

回答 1 投票 0

Beam 数据流重新洗牌失败

我们有一个批处理 GCP Dataflow 作业在 Reshuffle() 步骤上失败,并出现以下错误: ValueError:使用编码器 WindowedValueCoder[TupleCoder[LengthPrefixCoder[

回答 1 投票 0

出现错误:AttributeError:'MySchemaClassName'对象在使用 apache_beam to_dataframe 模块时没有属性“..type '”

你好,我正在学习 apache_beam。下面是我编写的脚本的一部分,旨在从 pub/sub 订阅中选取流数据,对其进行转换并将最终结果写入

回答 1 投票 0

Apache Beam:使用计时器时组件数量与编码器数量不匹配

我的问题和这个很相似 我正在尝试添加一些计时器来稍后处理一些数据,但出现以下错误 来自工作人员的错误消息:generic::unknown: Traceback(最推荐...

回答 1 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.