apache-beam 相关问题

Apache Beam是用于批处理和流处理的统一SDK。它允许使用特定于Beam的DSL指定大规模数据处理工作流程。 Beam工作流可以在不同的运行时执行，如Apache Flink，Apache Spark或Google Cloud Dataflow（云服务）。

如何在 Apache Beam 管道中记录传入消息

我正在编写一个简单的 apache beam 流管道，从 pubsub 主题获取输入并将其存储到 bigquery 中。几个小时以来，我以为我什至无法阅读消息，因为我只是在尝试......

google-cloud-dataflow apache-beam google-cloud-pubsub apache-beam-io

回答 2 投票 0

在全局窗口中加入多个pCollection

我想构建一个 Beam 程序来流式读取 Pub/Sub 消息，类似于 {"user_id":"u1"} 使用用户 ID 从 7 个以上 BigQuery 表中检索数据。由于性能我...

google-cloud-dataflow apache-beam

回答 1 投票 0

tensorflow 数据验证 tfdv 在 Google Cloud 数据流上失败，并显示“无法获取属性‘NumExamplesStatsGenerator’”

我正在关注这个“入门”张量流教程，了解如何在谷歌云数据流上的 apache beam 上运行 tfdv。我的代码与教程中的代码非常相似：导入

tensorflow google-cloud-platform google-cloud-dataflow apache-beam tensorflow-data-validation

回答 1 投票 0

apache 将行发送到 tfrecord 以便生成统计数据

我已经构建了一个管道，可以读取一些数据，进行一些操作并创建一些 apache beam Row 对象（下面代码中的步骤 1 和 2）。然后我想生成统计数据并编写...

apache-beam apache-beam-io tensorflow-transform tensorflow-data-validation

回答 1 投票 0

Apache Beam Python 在其他集合中查找值

我正在尝试在单独的大查询表中查找值，我需要使用表2中的url查找表1中的link_url。从表1中我只需要link_id 表格1 链接 ID 链接地址 id1...

python google-bigquery apache-beam

回答 1 投票 0

直接运行器中带有 SqlTransform 的 Apache Beam

我有以下代码可以在Windows上的直接运行器中的apache beam中运行sql转换。导入 apache_beam 作为光束从 apache_beam.transforms.sql 导入 SqlTransform 与beam.Pipeline()...

python sql apache-beam

回答 2 投票 0

使用 DirectRunner 可视化 Beam 管道运行的方法

在GCP中我们可以看到管道执行图。通过 DirectRunner 在本地运行时是否可以实现同样的效果？

view pipeline apache-beam direct-runner

回答 2 投票 0

Apache Beam：窗口关闭后等待 N 秒以执行 DoFn

我有实时数据被发布并以同步方式读入数据流管道。我收集数据，对其进行窗口化（固定为 1 秒）并进行累积，然后将其写入 Firestore DB。那个...

python google-cloud-platform google-cloud-firestore google-cloud-dataflow apache-beam

回答 1 投票 0

Apache Beam Java 流管道中出现 OOM 错误

我的数据流作业流管道设计如下。从 Spanner 更改流中读取更新/插入的行作为 datachangerecord 如果插入 datachangerecord mod 则创建 tablerow 如果

java google-cloud-platform apache-beam google-cloud-spanner

回答 1 投票 0

Google 数据流将数据写入 CloudSQL postgres | java.sql.SQLException：无法创建 PoolableConnectionFactory（连接尝试失败。）

我正在尝试使用 google dataflow 创建 ETL 管道，将数据写入 CloudSQL postgres 数据库。但我在连接到云 sql 实例时遇到错误。字符串 jdbcConURL = "jdbc:

postgresql jdbc google-cloud-dataflow apache-beam

回答 1 投票 0

BigQuery 表架构类型在 apache beam 中未正确转换

当前用于 BigQuery 的 python Apache Beam SDK 中存在一个错误，该错误将 BQ TIMESTAMP 错误地转换为 BQ DATETIME。这似乎已被修复，但我有一种感觉，它可能是在预

python google-bigquery casting google-cloud-dataflow apache-beam

回答 1 投票 0

使用 Apache Beam 和 Python 将带有 ordering_key 的消息写入 Google PubSub

我正在尝试使用 Apache Beam (https://cloud.google.com/pubsub/docs/publisher) 将带有 ordering_key 的 Google PubSub 消息写入主题。虽然带有 ordering_key 的 Google Pubsub 是测试版功能...

python-3.x apache-beam google-cloud-pubsub dataflow

回答 1 投票 0

Apache Beam Python ReadFromPubsub IO 中的内存泄漏

概述我们有一个 Dataflow 流管道，它从 pubsub 订阅中读取消息，将 dict 转换为数据类并将数据写入 postgres。我注意到有时候，pubsub

python google-cloud-dataflow apache-beam

回答 1 投票 0

具有多个Python依赖项的模板数据流

我正在尝试从具有多个文件依赖项的管道在 Python 中创建模板数据流。这是项目结构：根 | ----> 项目目录 | ----> __init__.py ...

python google-cloud-platform google-cloud-dataflow apache-beam

回答 2 投票 0

用于实施数据流和数据流进行分析的数据流作业中出现死信队列失败

我目前正在使用 GCP Dataflow 从云存储中获取数据并将其加载到 BigQuery 中，按照本教程中概述的步骤操作：https://cloud.google.com/datastream/docs/implementing-

google-cloud-platform google-bigquery google-cloud-dataflow apache-beam google-datastream

回答 1 投票 0

ClassNotFoundException：spark 提交期间 org.apache.beam.runners.spark.io.SourceRDD$SourcePartition

我使用spark-submit来spark独立集群来执行我的shaded jar，但是执行器出现错误： 2006 年 12 月 22 日 15:21:25 INFO TaskSetManager：在阶段 0.0 (TID 1) 中启动任务 0.1 (10.37.2.77，

apache-spark apache-beam spark-submit

回答 1 投票 0

当集合大小为0时，如何防止数据流管道中写入空文件？

我有一个数据流管道，我正在解析一个文件，如果我得到任何不正确的记录，那么我会将其写入GCS存储桶，但是当输入文件数据中没有错误时，TextIO仍然会写入e.. .

java google-cloud-dataflow apache-beam dataflow

回答 2 投票 0

如何使用 Java 将 PCollection 转换为 Apache Beam 中的列表集合？

我正在使用 Apache Beam 来处理批处理数据，为此，我从 List 创建 PCollection 对象，但是一旦完成执行管道处理，我需要将结果转换为

java apache-beam

回答 2 投票 0

GCP Dataflow 批处理

我正在为 GCP Dataflow 批处理进行 POC。我想将 Pandas Dataframe 作为批量输入传递并执行列式转换并再次返回同一批次。我参考下面提供的示例...

google-cloud-dataflow apache-beam

回答 1 投票 0

Apache Beam Python 管道 - 等待生成第二个 PCollection

我正在读取GCS存储桶并生成一个json文件，稍后我需要将其导入到BQ中。但我收到错误“OSError：根据文件模式找不到文件” 与光束。管道（选项=

python apache pipeline apache-beam

回答 1 投票 0

apache-beam 相关问题

最新问题