google-cloud-dataflow 相关问题

Google Cloud Dataflow是一种完全托管的云服务,可用于大规模创建和评估数据处理管道。数据流管道基于Apache Beam编程模型,可以在批处理和流模式下运行。 Cloud Dataflow是Google云端平台的一部分。

数据流作业成功后如何激活云功能?

我的 Apache Beam 管道的代码如下。我的云函数(Topic-name: projects/wisdomcircle-350611/topics/uat-timestamp-job-trigger)必须在下面的数据流任务为

回答 0 投票 0

连续执行数据流作业?

如何同步运行 apache beam 数据流管道? 这是 apache beam 自定义管道代码(数据流)。 def run_pipeline(jdbc_url, username, password, types, wisgen_table, recruiter_table,

回答 1 投票 0

为什么我们需要在 Apache Beam ParDo 函数中显式返回列表?

我有下面的代码,它对 CSV 文件执行一些操作。 SplitRow 类(beam.DoFn): def 过程(自我,元素): 返回 [element.split(',')] 类 FilterCardioPatients(beam.DoFn): 定义...

回答 1 投票 0

GCP 数据流:管道数据来自不同项目中的 BigQuery 实例

我有一个 GCP 数据流作业,它从一个 GCP 项目(源)中提取数据并将其推送到另一个项目(目标)。该作业将在 Dest 项目中运行。 问题是当我尝试跑步时......

回答 0 投票 0

Apache Beam 无界管道窗口化

我有一个在 Dataflow 中运行的无界 Apache Beam 管道,它执行一组非常简单的指令: 它读取发布订阅消息 (PubsubIO) 它从消息中提取时间戳,提取数据 f...

回答 1 投票 0

在数据流(Apache Beam)作业中导入共享 Python 模块

我正在使用 Google Cloud 的数据流工具构建一系列数据管道。 这是我的文件结构: -- 数据流作业 |-- 自述文件.md |-- 清除导出 | |-- __init__.py | ...

回答 3 投票 0

如何在 Google Cloud Platform (apache beam) 中同步运行管道的作业操作

在 Google Cloud Platform(dataflowRunner) 中运行 apache beam pipeline,可能会有这样的情况,即在所有其他步骤完成后才想运行一些代码。 这是我的 python 代码 p = b...

回答 0 投票 0

How to deploy Apache Beam to Dataflow using google cloud build?

我有一个用 java 编写的管道,它的模板在运行管道时部署在谷歌云存储上。 我想要的是生成一个 Dockerfile 和 cloudbuild.yaml 文件然后我可以部署 ...

回答 0 投票 0

Apache Beam Elastic IO 模块是否支持通过 Id 更新现有文档?

我找不到任何有关使用 apache beam 进行弹性搜索的文档更新文档。 apache beam 是否支持弹性搜索的更新?

回答 1 投票 0

在 GCP Dataflow 中执行 Apache Beam 的代码

我已经编写了一个完整的流水线,用于订阅 Kafka 主题并使用 Apache Beam 进行一些操作。 这是我当前的一段代码: public static void iot_topic_connection(St...

回答 1 投票 0

dataflow python - KeyError 即使没有输入到步骤并且匹配案例存在密钥

我正在编写一个数据管道来提取具有不同属性结构的 4 种类型的 json,并将其写入 Bigquery。 我的管道: 数据=(管道 | “来回阅读...

回答 0 投票 0

Apache Beam Map、DoFn 和 Composite Transform

我想了解 Map 函数、从 Pardo 调用的 DoFn 和 Composite 转换之间的用例的区别。 对于

回答 0 投票 0

如何使用定期刷新的辅助输入在本地测试我的数据流作业?

我有一个 Java 数据流作业,它从 PubSub 主题读取输入消息,接受每小时刷新一次的辅助输入,结合来自辅助输入和 PubSub 消息的信息,并且是

回答 0 投票 0

Apache Beam 用于功能创建

我正在尝试使用 Apache Beam 来创建功能。我查看了 SO 和 Beam Dataframe API 文档,但我还没有看到它解决了我遇到的问题。 从我从文档中看到的内容来看,每个 r ...

回答 1 投票 0

在Dataflow作业中查找重复的数据 - Python

我想用这个例子创建一个工作流:https:/github.comGoogleCloudPlatformprofessional-servicestreemasterexamplescloud-composer-examplescomposer_dataflow_examples我想做 ...

回答 2 投票 1

GCD中奇怪的内存使用图表

我在Google Cloud Dataflow中执行了一个作业,现在我在StackDriver上看到了结果。我不明白这个内存图表。我只用了1个和3个worker之后,但是这个图表的比例是顺序的...。

回答 1 投票 0

在Apache-Beam管道中提供用python编码的BigQuery证书。

我试图在我的梁管线中使用云数据流运行器从bigquery读取数据。我想提供一个凭证来访问项目。我在Java中看到过一些例子,但在Python中没有。唯一的...

回答 1 投票 0

从本地SQL服务器导入数据到谷歌Bigtable的最佳方法。

我需要每天从我们本地的SQL服务器导入大量的数据到Bigtable。每天有1-2亿行。我试着用它的写API来发送数据到Bigtable,但速度非常慢(大约20M ...

回答 1 投票 0

在Apache Beam (2.5.0)中窗口化后的GroupByKey不会产生输出。

我使用的是固定窗口,我应用于一个PCollection,以便在一个非绑定的源上进行GroupBy,如下所示。PCollection >> grouppedBy = ...

回答 1 投票 0

用Java执行Bigquery Merge DML。

我做了一个DML指令,在Bigquery中每小时运行一次,类似于这个指令。MERGE dataset.DetailedInventory T USING dataset.Inventory S ON T.product = S.product WHEN NOT MATCHED... ...

回答 1 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.