google-cloud-dataflow 相关问题

Google Cloud Dataflow是一种完全托管的云服务,可用于大规模创建和评估数据处理管道。数据流管道基于Apache Beam编程模型,可以在批处理和流模式下运行。 Cloud Dataflow是Google云端平台的一部分。

如何使用Python通过Cloud Dataflow将CSV文件导入Cloud Bigtable?

描述我正在做什么的最简单方法基本上是遵循本教程:将CSV文件导入Cloud Bigtable表,但是在他们启动Dataflow作业的部分中,他们使用Java:...

回答 3 投票 2

将Pub / Sub连接到Dataflow Python管道

我正在编写一个处理电子邮件的Dataflow流管道(用Python)。这个想法是,当一封电子邮件到达时,会发布一条Pub / Sub消息,触发检索电子邮件的管道......

回答 2 投票 0

通过在Google云上运行Dataflow作业,在VM实例上提供自定义标签和元数据

有人知道如何通过在Google云上运行Dataflow作业在VM实例上提供自定义标签和元数据吗?所以我尝试运行Java Dataflow作业,我想设置一些自定义标签和元数据......

回答 1 投票 0

GCP存储中的重复文件名

我正在将文件传输到GCP存储(存储桶)。这样做会导致频繁的错误(大约每天200万次)声称我的文件名策略必须生成唯一的名称。我试过多次......

回答 1 投票 1

如何调试python数据流beam.io.WriteToBigQuery

我目前有一个python数据流作业,其末端接收是对BigQuery的PCollection写入。它失败了,出现以下错误:工作流程失败。原因:S01:XXXX + XXX + Write / WriteToBigQuery / ...

回答 1 投票 0

从Beam / DataFlow读取RabbitMQ

我正在尝试以流方式从beam / dataflow运行RabbitMQ队列(以便它可以无限期地运行。)我正在尝试运行的最小示例代码是:import org.apache.beam.sdk ....

回答 2 投票 0

模块'apache_beam.io.filesystems'没有属性'Filesystems'

我试图从pubsub读取元数据,我可以成功读取消息,然后我试图传递桶名称和文件名,以便我可以打开gcs文件做一些...

回答 1 投票 0

通过Google Cloud Scheduler执行数据流模板

我正在尝试通过Google Cloud Scheduler执行自定义数据流模板,但是当我执行作业时,我得到了一个UNAUTHENTICATED异常。如何授予Google Cloud Scheduler访问权限以使用...

回答 1 投票 0

Beam / DataFlow :: ReadFromPubSub(id_label)::意外行为

有人可以澄清ReafFromPubSub转换中id_label参数的目的是什么?我正在使用BigQuery接收器,我的理解它就像一个用于BQ Streaming API的insertId,Tabledata:insertAll ...

回答 1 投票 0

Dataflow停止流式传输到BigQuery而没有错误

我们开始使用Dataflow从PubSub和Stream读取BigQuery。数据流应该全天候工作,因为pubsub会不断更新全球多个网站的分析数据。代码......

回答 2 投票 2

ImportError:没有名为tensorflow_transform.beam的模块

向GCP提交Dataflow作业时,我收到此错误:Traceback(最近一次调用最后一次):文件“/usr/local/lib/python2.7/dist-packages/dataflow_worker/batchworker.py”,第766行,在运行中....

回答 1 投票 1

附加设置2.10.0时Dataflow SDK 2.7.0

我正在尝试运行数据流作业,请使用以下setup.py文件:import setuptools setuptools.setup(name ='Some-Name',version ='0.0.1',install_requires = ...

回答 1 投票 1

从数据流中查询BigQuery的INFORMATION_SCHEMA.TABLES会导致错误

我正在尝试在INFORMATION_SCHEMA上运行查询,以从数据流中检索有关bigquery表的元数据。找到下面的代码和错误。相同的查询在BQ UI查询= SELECT中正常工作...

回答 1 投票 1

如何在GCP中登录/ ssh到Dataflow VM worker?

我有一个数据流工作。如何定义元标记以便通过sss登录到GCP中的数据流工作者?

回答 1 投票 0

如何使用apache beam python将结果附加到管道中?

我有apache beam管道,我使用pubsub从输入文件中获取一些文本,之后我正在做一些转换,我得到了句子和分数,但我的作者在写...

回答 1 投票 0

如何用apache梁中的ParDo和DoFn写入GCS

使用apache_beam.io.filesystems.FileSystems如何使用ParDo和DoFn写入GCS?我已经从pardo获得了csv格式的输出,我是否需要编写另一个pardo来将其写入gcs ...

回答 1 投票 0

从谷歌云作曲家运行数据流时导入依赖项的问题

我正在从谷歌云作曲家运行数据流,数据流脚本包含一些非标准依赖项,如zeep,googleads。这些都需要安装在数据流工作节点上,所以我......

回答 2 投票 1

使用Dataflow生成自我执行JAR

根据链接中的方向,尝试构建JAR文件以在Airflow中调度数据流作业。在依赖关系部分添加了相关的依赖关系,并在构建部分中给出了主类名...

回答 1 投票 1

当使用模板Pub / Sub - > BigQuery时,处理卡在步骤WriteSuccessfulRecords中

当我使用已定义的模板时,我不断遇到此问题。我不确定可能是什么问题。至于sdk:Apache Beam SDK for Java 2.10.0处理卡在步骤WriteSuccessfulRecords / ...

回答 1 投票 0

阅读Avro文件并将其写入BigQuery表

我的目标是从云存储中读取avro文件数据,并使用Java将其写入BigQuery表。如果有人提供代码snipet / ideas来读取avro格式数据并写入...将会很好。

回答 2 投票 1

© www.soinside.com 2019 - 2024. All rights reserved.