google-cloud-dataflow 相关问题

Google Cloud Dataflow是一种完全托管的云服务,可用于大规模创建和评估数据处理管道。数据流管道基于Apache Beam编程模型,可以在批处理和流模式下运行。 Cloud Dataflow是Google云端平台的一部分。

谷歌云数据流java API没有读取其他项目的pubsub主题

我只有一个在生产项目中创建的主题。我想在开发环境中运行我的数据流作业,这需要使用生产pubsub主题。当我在dev中提交我的数据流作业时......

回答 1 投票 1

NoneType的参数不可迭代 - 使用Airflow运行数据流作业

我想在Airflow上运行一个自动执行的DataFlow jar。当我运行以下命令时,我得到异常:“airflow test test-dag hello-dag 2018-03-26”我丢失了什么东西?我找不到更多......

回答 1 投票 2

通过Google Cloud Pub / Sub将数据重播到Apache Beam管道,而不会使其他订阅者超载

我正在做的事情:我正在构建一个系统,其中一个Cloud Pub / Sub主题将由流模式下的数十个Apache Beam管道读取。每次我部署一个新的管道时,它应该首先处理......

回答 1 投票 0

如何在GroupBy / Combine之后创建Dataflow包?

设置:从pubsub读取 - > 30s窗口 - >按用户分组 - >合并 - >写入云数据存储问题:我看到DataStoreIO编写器错误,因为具有相似键的对象存在于同一个...

回答 1 投票 1

如何阅读文本文件并使用TextIO返回其他输入字段?

我有一个KV的PCollection,其中key是filename,value是文件的一些附加信息(例如,生成文件的“Source”系统)。例如,KV(“gs://bucket1/dir1/X1.dat”,“SourceX”),...

回答 1 投票 0

流媒体缓冲区 - Google BigQuery

我正在开发一个像Google Dataflow模板一样使用的python程序。我正在做的是从PubSub在BigQuery中编写数据:pipeline_options.view_as(StandardOptions).streaming = True p = ...

回答 1 投票 1

一般来说,“交换和关联”在Apache Beam和并行处理方面意味着什么?

从文档中应用组合变换时,必须提供包含组合元素或值的逻辑的函数。组合功能应该是......

回答 1 投票 0

防止Apache Beam / Dataflow流(python)管道中的融合以消除管道瓶颈

我们目前正在使用DataflowRunner在Apache Beam上开发流式传输管道。我们正在阅读Pub / Sub中的消息并对它们进行一些处理,之后我们将它们放在滑动中...

回答 1 投票 4

使用Dataflow进行图像预处理

任务:我将运行一个ETL作业,该作业将从GCS中提取TIFF图像,使用OpenCV + Tesseract等开源计算机视觉工具的组合将这些图像转换为文本,最终......

回答 1 投票 5

将pubsub消息重新编写回pubsub,数据流可能吗?

我有一个应用程序将数据写入Google Cloud pubsub,并且根据pubsub的文档,由于重试机制的重复,偶尔会发生这种情况。还有......

回答 2 投票 0

使用Go SDK进行云数据流的并行性问题

我在Go SDK上有Apache Beam代码实现,如下所述。管道有3个步骤。一个是textio.Read,另一个是CountLines,最后一步是ProcessLines。 ProcessLines步骤需要......

回答 1 投票 1

使用Apache Beam 2.9.0 Java SDK的Google数据流工作陷入困境

我正在使用Beam Java SDK 2.9.0,我的工作在步骤中从Kafka读取。我的工作在Direct runner上工作得很好。当我在Dataflow上部署它时,作业被卡住了,我看不到任何进展。数据流......

回答 1 投票 0

Python apache beam dataflow worker-startup错误:无法安装包:无法安装SDK:退出状态2

在看之前:RuntimeError:IOError:[Errno 2]在我的apache中没有这样的文件或目录:'/ beam-temp-andrew_mini_vocab-.... / _andrew_mini_vocab'[在运行.....] beam python dataflow工作我......

回答 1 投票 4

简单测试Streaming管道(在Dataflow上运行)::数据不流经

我正在编写一个简单的流媒体管道(Apache Beam 2.11 SDK,Python 2.7.10)并在Dataflow运行器上运行它,读取表单Pub / Sub >> apply element-wise beam.Map()transsform >> sink to BigQuery(The代码......

回答 3 投票 0

使用apache beam Kafkaio聚合主题(数据流)

我在压缩的kafka主题中移动数据很慢,而在另一个主题中移动数据也很快。 1)快速移动的数据是来自Kafka的实时摄取的无限事件。 2)缓慢移动的数据是元数据......

回答 2 投票 0

如何在google-cloud-dataflow中使用文件模式匹配时获取文件名

在google-cloud-dataflow中使用文件模式匹配时,有人知道如何获取Filename吗?我是新手使用数据流。以这种方式使用文件模式匹配时如何获取文件名。 p.apply(TextIO.Read ....

回答 4 投票 5

访问文件名中的信息(元数据)并在Beam管道中键入

我的文件名包含我在管道中需要的信息,例如我的数据点的标识符是文件名的一部分而不是数据中的字段。例如,每台风力涡轮机都会产生一

回答 1 投票 1

无论如何在数据流管道中共享有状态变量?

我正在用python制作数据流管道。我想在管道转换和工作节点之间共享全局变量,如全局变量(跨多个工作者)。有没有办法......

回答 1 投票 2

从CSV dataflow python创建一个Dict

我试图用python中的csv数据制作一个dict,我不想使用传统的split(','),然后使用将行重命名为我想要的标题,因为我将收到不同的csv ...

回答 2 投票 2

在apache-beam / google-cloud-dataflow中排序和限制

我们假设我有以下格式的PCollection:---------------------------------------- - | sale_id | product_id |金额| | ----------- | --------------- | ----------- | | 1 | ...

回答 1 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.