google-cloud-dataflow 相关问题

Google Cloud Dataflow是一种完全托管的云服务,可用于大规模创建和评估数据处理管道。数据流管道基于Apache Beam编程模型,可以在批处理和流模式下运行。 Cloud Dataflow是Google云端平台的一部分。

Google Cloud数据流:CloudBigtableScanConfiguration.withScan(),如何传递动态过滤器值?

SourceLocation是我的Bigtable的前缀,该前缀是从application.properties获取的。有没有办法在运行数据流模板时动态地获取它?我的管道:pipeline.apply(“ ...

回答 1 投票 0

数据流:到发布消息的字符串

我正在尝试在Dataflow中进行单元测试。对于该测试,首先,我将从一个简单的硬编码字符串开始。问题是我需要将该字符串转换为pubsub消息。...

回答 2 投票 0

数据流单元测试

我正在尝试为我的管道构建单元测试。该管道从pubsub读取,执行转换并将结果再次写入pubsub。为了进一步简化单元测试直至生效,...

回答 1 投票 0

如何从Bigquery表中提取空值作为TableRow对象

我正在尝试使用Google Cloud Dataflow从BigQuery表中提取数据。我的BigQuery表只有几个空值(对于String数据类型)和null(对于Numeric数据类型)。当我尝试提取...

回答 1 投票 0

withHintMatchesManyFiles在读取大量文件时是否可以真正提高TextIO的性能?

在这个问题中,我们知道PCollection lines = p.apply(TextIO.read().from(“ gs:// some-bucket / many / files / *”).withHintMatchesManyFiles());使用此提示会导致...

回答 1 投票 0

apache beam python SDK SDK.ReadMatches是否支持压缩文件?

我在Java SDK文档中看到,我们可以在FileIO.ReadableFile实用程序类中指定压缩-https://beam.apache.org/releases/javadoc/2.2.0/org/apache/beam/sdk/io / FileIO ....

回答 1 投票 -1

Dataflow(Apache Beam)无法在BigQuery上写

我有一个管道,在最后的步骤中必须在BigQuery上写两个记录,我真的不知道为什么它似乎什么也不插入。我没有错误,该表存在并且它已经包含...

回答 1 投票 0

更正JSON以发布到PubSub-数据流-BiqQuery?正确的数据模式?

我正在使用Google Cloud模板(Cloud Pub / Sub to BigQuery)中的google-pre-setup模板进行实验的第一步。作为我最终目标的里程碑(具有物理设备报告...

回答 1 投票 2

Google Cloud Platform-数据流无法写入错误表

对于Google Cloud领域来说是全新的,对于Dataflow而言更是如此。尝试写出未能写入所需的Big Query表的记录时,我收到以下错误消息。 ...

回答 1 投票 0

参数化测试SCIO(JobTest)和Scala测试(forAll)

我想使用SCIO JobTest和Scala Test进行参数化测试。我使用TableDrivenPropertyChecks,它允许通过forAll进行参数化测试。导入org.scalatest.prop ....

回答 2 投票 1

如何使数据流Apache Beam工作更快

我有一个apache束工作,大约需要6个多小时才能完成。我们摄取了大约2.7Tb的GCS数据以及其他数据源(例如Bigtable / Bq / etc),然后执行CoGroupbyKey.create()。 GCS ...

回答 1 投票 0

如何在Eclipse中设置GCP凭据以运行数据流管道

我有一个在Eclipse中使用Java开发的管道。安装适用于Eclipse的Cloud SDK之后,我可以使用Dataflow配置在本地运行管道(直接运行器):我会...

回答 1 投票 0

如何在光束管道中设置GOOGLE_APPLICATION_CREDENTIALS以解决访问被拒绝错误?

我正在尝试使用数据流管道从文件中的bigquery中插入数据。下面的代码给我访问被拒绝的错误。我还通过环境变量设置了应用程序凭据。我开始...

回答 1 投票 0

从数据流中的PubsubMessage获取属性

我尝试访问pubsub消息的属性时遇到问题。错误消息如下:类型为org.apache.beam.sdk.coders.SerializableCoder类型的编码器具有#structuralValue方法...

回答 1 投票 0

如何调试Google Cloud Dataflow流引擎中断?

我们正在使用Streaming Engine选项在Google Cloud Dataflow中运行一些流处理。今天早上缺少一些数据,因此我尝试进行一些故障排除。我发现的唯一东西,...

回答 1 投票 0

用于org.json.JSONObject的Apache Beam编码器

我正在用Apache Beam编写一条数据管道,该数据管道从Pub / Sub读取,将消息反序列化为JSONObjects,并将它们传递给其他一些管道阶段。问题是,当我尝试提交我的代码时,我...

回答 1 投票 0

“无服务器”和“完全托管”有什么区别?

根据Google Cloud文档,当Cloud Firestore受到完全管理时,Cloud Dataflow是无服务器的。如果没有服务器意味着基础架构和资源由云管理...

回答 1 投票 0

如何使用Apache Beam中的运行时值提供程序写入Big Query?

我正在尝试生成一个数据流模板,然后从GCP云函数调用。(作为参考,我的数据流作业应该读取其中包含一堆文件名的文件,然后读取所有...

回答 1 投票 1

错误:使用Cloud Dataflow写入BigQuery时无法散列的类型'dict'

我需要通过apache-beam从pub / sub将数据写入Bigquery。代码如下:import argparse import base64 import logging import datedate from datetime import datetime from ast ...

回答 1 投票 0

如何将单个csv文件转换为用于Apache光束的多个pcollection

我有一个csv文件,其中前几行是ID和标签,其余几行是实际数据。对于...

回答 1 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.