Google Cloud Dataflow是一种完全托管的云服务,可用于大规模创建和评估数据处理管道。数据流管道基于Apache Beam编程模型,可以在批处理和流模式下运行。 Cloud Dataflow是Google云端平台的一部分。
如何使用Python通过Cloud Dataflow将CSV文件导入Cloud Bigtable?
描述我正在做什么的最简单方法基本上是遵循本教程:将CSV文件导入Cloud Bigtable表,但是在他们启动Dataflow作业的部分中,他们使用Java:...
将Pub / Sub连接到Dataflow Python管道
我正在编写一个处理电子邮件的Dataflow流管道(用Python)。这个想法是,当一封电子邮件到达时,会发布一条Pub / Sub消息,触发检索电子邮件的管道......
通过在Google云上运行Dataflow作业,在VM实例上提供自定义标签和元数据
有人知道如何通过在Google云上运行Dataflow作业在VM实例上提供自定义标签和元数据吗?所以我尝试运行Java Dataflow作业,我想设置一些自定义标签和元数据......
我正在将文件传输到GCP存储(存储桶)。这样做会导致频繁的错误(大约每天200万次)声称我的文件名策略必须生成唯一的名称。我试过多次......
如何调试python数据流beam.io.WriteToBigQuery
我目前有一个python数据流作业,其末端接收是对BigQuery的PCollection写入。它失败了,出现以下错误:工作流程失败。原因:S01:XXXX + XXX + Write / WriteToBigQuery / ...
我正在尝试以流方式从beam / dataflow运行RabbitMQ队列(以便它可以无限期地运行。)我正在尝试运行的最小示例代码是:import org.apache.beam.sdk ....
模块'apache_beam.io.filesystems'没有属性'Filesystems'
我试图从pubsub读取元数据,我可以成功读取消息,然后我试图传递桶名称和文件名,以便我可以打开gcs文件做一些...
通过Google Cloud Scheduler执行数据流模板
我正在尝试通过Google Cloud Scheduler执行自定义数据流模板,但是当我执行作业时,我得到了一个UNAUTHENTICATED异常。如何授予Google Cloud Scheduler访问权限以使用...
Beam / DataFlow :: ReadFromPubSub(id_label)::意外行为
有人可以澄清ReafFromPubSub转换中id_label参数的目的是什么?我正在使用BigQuery接收器,我的理解它就像一个用于BQ Streaming API的insertId,Tabledata:insertAll ...
我们开始使用Dataflow从PubSub和Stream读取BigQuery。数据流应该全天候工作,因为pubsub会不断更新全球多个网站的分析数据。代码......
ImportError:没有名为tensorflow_transform.beam的模块
向GCP提交Dataflow作业时,我收到此错误:Traceback(最近一次调用最后一次):文件“/usr/local/lib/python2.7/dist-packages/dataflow_worker/batchworker.py”,第766行,在运行中....
我正在尝试运行数据流作业,请使用以下setup.py文件:import setuptools setuptools.setup(name ='Some-Name',version ='0.0.1',install_requires = ...
从数据流中查询BigQuery的INFORMATION_SCHEMA.TABLES会导致错误
我正在尝试在INFORMATION_SCHEMA上运行查询,以从数据流中检索有关bigquery表的元数据。找到下面的代码和错误。相同的查询在BQ UI查询= SELECT中正常工作...
如何在GCP中登录/ ssh到Dataflow VM worker?
我有一个数据流工作。如何定义元标记以便通过sss登录到GCP中的数据流工作者?
如何使用apache beam python将结果附加到管道中?
我有apache beam管道,我使用pubsub从输入文件中获取一些文本,之后我正在做一些转换,我得到了句子和分数,但我的作者在写...
使用apache_beam.io.filesystems.FileSystems如何使用ParDo和DoFn写入GCS?我已经从pardo获得了csv格式的输出,我是否需要编写另一个pardo来将其写入gcs ...
我正在从谷歌云作曲家运行数据流,数据流脚本包含一些非标准依赖项,如zeep,googleads。这些都需要安装在数据流工作节点上,所以我......
根据链接中的方向,尝试构建JAR文件以在Airflow中调度数据流作业。在依赖关系部分添加了相关的依赖关系,并在构建部分中给出了主类名...
当使用模板Pub / Sub - > BigQuery时,处理卡在步骤WriteSuccessfulRecords中
当我使用已定义的模板时,我不断遇到此问题。我不确定可能是什么问题。至于sdk:Apache Beam SDK for Java 2.10.0处理卡在步骤WriteSuccessfulRecords / ...
我的目标是从云存储中读取avro文件数据,并使用Java将其写入BigQuery表。如果有人提供代码snipet / ideas来读取avro格式数据并写入...将会很好。