google-cloud-dataflow 相关问题

Google Cloud Dataflow是一种完全托管的云服务,可用于大规模创建和评估数据处理管道。数据流管道基于Apache Beam编程模型,可以在批处理和流模式下运行。 Cloud Dataflow是Google云端平台的一部分。

计算GroupBy曾经将它传递给Google DataFlow中的多个转换(Python SDK)

我正在使用Python SDK for Apache Beam在Google DataFlow上运行功能提取管道。我需要运行多个转换,所有这些转换都希望按键对项进行分组。基于......

回答 2 投票 1

在Dataflow转换中按ID获取数据存储区实体

我有2个数据存储模型:类KindA(ndb.Model):field_a1 = ndb.StringProperty()field_a2 = ndb.StringProperty()类KindB(ndb.Model):field_b1 = ndb.StringProperty()field_b2 = ...

回答 1 投票 0

Google Cloud Dataflow UDF添加数字架构

我正在使用Dataflow连接Google Cloud Pub-Sub和BigQuery。我的Pub-Sub消息是JSON格式,有一个名为Temp的字段,温度为摄氏度。我正在尝试添加架构......

回答 1 投票 0

为Pubsub到Bigquery流构建此GCP Dataflow示例时出错

我正在尝试构建以下将Pub / Sub流式传输到BigQuery的示例:https://github.com/GoogleCloudPlatform/DataflowTemplates/blob/master/src/main/java/com/google/cloud/teleport/templates/ .. 。

回答 2 投票 2

解析JSON时出现Google Cloud Dataflow Javascript UDF错误

我使用Pub / Sub到BigQuery模板来传输发送到Pub / Sub主题的JSON数据。通过Dataflow,我希望将数据展平以匹配BigQuery架构并对其进行流式处理。这是 ...

回答 2 投票 0

从Python io.BufferedReader类的实例读取/打开图像

我正在努力从Python的io.BufferedReader类的实例中正确打开TIFF图像。我使用下面的lib从GCS路径下载图像,但我无法打开似乎打开图像...

回答 1 投票 3

使用Apache Beam从Google Cloud Datastore批量读取记录

我正在使用Apache Beam在Beam自己的io.gcp.datastore.v1.datastoreio Python API的帮助下从Google Cloud Datastore读取数据。我在Google Cloud Dataflow上运行我的管道。我想确保......

回答 1 投票 0

从Google Dataflow连接到MySQL

我正在尝试从Google Dataflow连接到AWS RDS MySQL实例。我创建了一个java程序来创建管道。作业创建成功,但MySQL连接总是失败...

回答 2 投票 0

运行多个连接时,Beam SQL / Apache Beam速度较慢

使用Beam SQL在2个表上进行连接时,它正常工作提供了预期的性能,但随着我的连接表增加,性能变得最差。以下是我的片段......

回答 1 投票 0

加入两个具有不同键名的表

尝试实现以下场景,使用相同的键连接两个表(A,B)过滤表(c)加入步骤1的结果和步骤2的结果。这里它具有不同的键名但是相同的值(例如:第1 ...

回答 1 投票 2

谷歌数据流“找不到方案gs的文件系统”

我正在尝试执行Google Dataflow应用程序,但它抛出此异常java.lang.IllegalArgumentException:在org.apache.beam.sdk.io.FileSystems中没有为scheme gs找到文件系统....

回答 1 投票 2

云数据流流媒体,空闲时停止存钱?

我有一个用户可以投票的应用程序。我希望我的应用程序能够扩展,因此我决定使用Cloud Dataflow聚合存储在Firestore中的计数器。我已经设置了一个Dataflow工作......

回答 1 投票 2

基于唯一键创建不同的会话

我从kafka主题获取消息,该主题向我发送JSON消息。我想从json消息中提取一个字段(可以是ex。一个ID),我想创建'n'个会话...

回答 1 投票 1

无法从ApacheBeam sql调用`ApproximateDistinct.ApproximateDistinctFn`

试图从apache beam sql使用聚合函数ApproximateDistinct.ApproximateDistinctFn,这个失败了。我的SQL:SELECT ApproximateDistinct(user_id)as distinct_count,profile,...

回答 1 投票 0

Google云数据流作业状态

我在unix shell脚本中运行数据流作业,并且需要知道每个作业的最终/完成状态,是否有任何命令行工具来获取作业完成状态?

回答 2 投票 2

无法使用Java通过CLI命令创建Google云数据流模板

我正在开发谷歌应用引擎项目,我为谷歌云数据流工作创建了一个类,并尝试按照步骤https://cloud.google.com/dataflow/docs/guides/templates/creating -...

回答 1 投票 1

如何修复python2.7中的“AttributeError:'module'对象没有属性'storage'”错误

在apache beam管道中,我从云存储中获取输入并尝试在biqguery表中编写它。但是在执行管道期间遇到此错误。 “AttributeError:'模块'对象没有......

回答 1 投票 0

从运行在Google Cloud Dataflow上的Apache Beam管道中的setup.py安装“ffmpeg”软件包

我正在尝试在Google Cloud Dataflow上运行Apache Beam管道,该管道利用FFmpeg执行转码操作。据我了解,因为ffmpeg不是python包(可通过......获取)

回答 2 投票 0

在带有窗口的GroupByKey之后,Beam管道不会产生任何输出,并且我得到了内存错误

目的:我想加载流数据,然后添加一个键,然后按键计数。问题:Apache Beam Dataflow pipline在我尝试使用...加载并按键分组大尺寸数据时出现内存错误

回答 1 投票 1

从Dataflow api在数据存储区中保存长度超过1500字节的字符串时出错

当我尝试保存一个非常长的字符串时,Dataflow作业抛出此错误消息:属性“myProperty”的值超过1500字节。,code = INVALID_ARGUMENT。 ......时出错

回答 2 投票 2

© www.soinside.com 2019 - 2024. All rights reserved.