Google Cloud Dataflow是一种完全托管的云服务,可用于大规模创建和评估数据处理管道。数据流管道基于Apache Beam编程模型,可以在批处理和流模式下运行。 Cloud Dataflow是Google云端平台的一部分。
计算GroupBy曾经将它传递给Google DataFlow中的多个转换(Python SDK)
我正在使用Python SDK for Apache Beam在Google DataFlow上运行功能提取管道。我需要运行多个转换,所有这些转换都希望按键对项进行分组。基于......
我有2个数据存储模型:类KindA(ndb.Model):field_a1 = ndb.StringProperty()field_a2 = ndb.StringProperty()类KindB(ndb.Model):field_b1 = ndb.StringProperty()field_b2 = ...
Google Cloud Dataflow UDF添加数字架构
我正在使用Dataflow连接Google Cloud Pub-Sub和BigQuery。我的Pub-Sub消息是JSON格式,有一个名为Temp的字段,温度为摄氏度。我正在尝试添加架构......
为Pubsub到Bigquery流构建此GCP Dataflow示例时出错
我正在尝试构建以下将Pub / Sub流式传输到BigQuery的示例:https://github.com/GoogleCloudPlatform/DataflowTemplates/blob/master/src/main/java/com/google/cloud/teleport/templates/ .. 。
解析JSON时出现Google Cloud Dataflow Javascript UDF错误
我使用Pub / Sub到BigQuery模板来传输发送到Pub / Sub主题的JSON数据。通过Dataflow,我希望将数据展平以匹配BigQuery架构并对其进行流式处理。这是 ...
从Python io.BufferedReader类的实例读取/打开图像
我正在努力从Python的io.BufferedReader类的实例中正确打开TIFF图像。我使用下面的lib从GCS路径下载图像,但我无法打开似乎打开图像...
使用Apache Beam从Google Cloud Datastore批量读取记录
我正在使用Apache Beam在Beam自己的io.gcp.datastore.v1.datastoreio Python API的帮助下从Google Cloud Datastore读取数据。我在Google Cloud Dataflow上运行我的管道。我想确保......
我正在尝试从Google Dataflow连接到AWS RDS MySQL实例。我创建了一个java程序来创建管道。作业创建成功,但MySQL连接总是失败...
运行多个连接时,Beam SQL / Apache Beam速度较慢
使用Beam SQL在2个表上进行连接时,它正常工作提供了预期的性能,但随着我的连接表增加,性能变得最差。以下是我的片段......
尝试实现以下场景,使用相同的键连接两个表(A,B)过滤表(c)加入步骤1的结果和步骤2的结果。这里它具有不同的键名但是相同的值(例如:第1 ...
我正在尝试执行Google Dataflow应用程序,但它抛出此异常java.lang.IllegalArgumentException:在org.apache.beam.sdk.io.FileSystems中没有为scheme gs找到文件系统....
我有一个用户可以投票的应用程序。我希望我的应用程序能够扩展,因此我决定使用Cloud Dataflow聚合存储在Firestore中的计数器。我已经设置了一个Dataflow工作......
我从kafka主题获取消息,该主题向我发送JSON消息。我想从json消息中提取一个字段(可以是ex。一个ID),我想创建'n'个会话...
无法从ApacheBeam sql调用`ApproximateDistinct.ApproximateDistinctFn`
试图从apache beam sql使用聚合函数ApproximateDistinct.ApproximateDistinctFn,这个失败了。我的SQL:SELECT ApproximateDistinct(user_id)as distinct_count,profile,...
我在unix shell脚本中运行数据流作业,并且需要知道每个作业的最终/完成状态,是否有任何命令行工具来获取作业完成状态?
我正在开发谷歌应用引擎项目,我为谷歌云数据流工作创建了一个类,并尝试按照步骤https://cloud.google.com/dataflow/docs/guides/templates/creating -...
如何修复python2.7中的“AttributeError:'module'对象没有属性'storage'”错误
在apache beam管道中,我从云存储中获取输入并尝试在biqguery表中编写它。但是在执行管道期间遇到此错误。 “AttributeError:'模块'对象没有......
从运行在Google Cloud Dataflow上的Apache Beam管道中的setup.py安装“ffmpeg”软件包
我正在尝试在Google Cloud Dataflow上运行Apache Beam管道,该管道利用FFmpeg执行转码操作。据我了解,因为ffmpeg不是python包(可通过......获取)
在带有窗口的GroupByKey之后,Beam管道不会产生任何输出,并且我得到了内存错误
目的:我想加载流数据,然后添加一个键,然后按键计数。问题:Apache Beam Dataflow pipline在我尝试使用...加载并按键分组大尺寸数据时出现内存错误
从Dataflow api在数据存储区中保存长度超过1500字节的字符串时出错
当我尝试保存一个非常长的字符串时,Dataflow作业抛出此错误消息:属性“myProperty”的值超过1500字节。,code = INVALID_ARGUMENT。 ......时出错