google-cloud-dataflow 相关问题

Google Cloud Dataflow是一种完全托管的云服务,可用于大规模创建和评估数据处理管道。数据流管道基于Apache Beam编程模型,可以在批处理和流模式下运行。 Cloud Dataflow是Google云端平台的一部分。

从BigQuery读取的Cloud Dataflow作业在启动前卡住了

在运行任何应用程序逻辑之前,我有一个Cloud Dataflow作业处于启动阶段。我通过在processElement步骤中添加一条日志输出语句来对此进行测试,但这是...

回答 1 投票 2

我如何以编程方式取消已运行太长时间的Dataflow作业?

我正在通过Python API在数据流上使用Apache Beam,从Bigquery中读取数据,对其进行处理,然后将其转储到数据存储区接收器中。不幸的是,工作常常无限期地挂起,我必须...

回答 2 投票 0

Dataflow worker无法从GCR中获取容器

仅得到此错误消息:(941d0d42ab1c3aec):工作流失败。原因:(941d0d42ab1c3675):数据流似乎卡住了。请通过以下网址与数据流团队联系:http://stackoverflow.com / ...

回答 1 投票 1

数小时无法创建数据流作业

我昨天向Dataflow提交了一份工作,今天它的状态仍然是“未开始”。但是,当我单击该职位的标题时,它首先向我显示一条消息“图形仍在分析中”,并且它显示为...

回答 1 投票 1

Dataflow Workers无法连接到Dataflow Service

我正在使用Google Dataprep来启动Dataflow作业,并且遇到了一些困难。对于背景,我们使用了Dataprep数周,并且在开始使用...

回答 2 投票 2

通过Airflow DAG的数据流作业

[我正在尝试通过Airflow中的BashOperator使用数据流运行器执行apap梁管道python文件。我已经知道如何将参数动态传递给python文件。我在寻找...

回答 1 投票 0

如何使用GCP Cloud SQL作为Python的数据流源和/或接收器?

是否有任何指南可用于将Google Cloud SQL用作数据流读取源和/或接收器?在Apache Beam Python SDK 2.1.0文档中,没有一章提到Google Cloud SQL。但是...

回答 1 投票 3


[Dataflow Sideinputs-SDK 2.x中的工作者缓存大小

我在使用〜1GB的大型侧面输入的DoFn中的管道中遇到性能问题。使用pvalue.AsList()传递侧面输入,这将强制侧面输入实现。 ...

回答 1 投票 0

UserCodeException:java.lang.OutOfMemoryError:流式自动缩放时的Java堆空间

我有两个流水线管道正在到目前为止没有任何问题的生产环境中运行(均使用n1-standard-4)。但是,当我决定尝试自动缩放时,它给了我所说的错误。我用...

回答 2 投票 0

Python的3.7和数据流 - SSL证书问题

我需要使用谷歌的云API来编写我的数据流工作。据我了解,我无法使用PIP安装谷歌云,数据流,因为阿帕奇梁惯于”在Python 3中工作,所以我一直在使用...

回答 1 投票 1

ElasticSearch IO如何从JSON文件写入之前删除ID

我有一个Apache梁数据流作业,从卡夫卡读取数据,并使用ElasticSearchIO写入ElasticSearch。我遇到的问题是,在卡夫卡的消息已经拥有关键领域,以及使用...

回答 2 投票 0

使用Apache束住监测

我想实现以下使用Apache梁:计算每5秒从发布订阅在最后一分钟的进球是对的汇率数据半实时视图阅读活动...

回答 1 投票 1

worker_machine_type标签在谷歌云计算数据流不工作与Python

我使用的Apache梁在Python与谷歌云数据流(2.3.0)。当指定worker_machine_type参数作为例如N1-HIGHMEM-2或定制1-6656,数据流运行工作,但总是使用...

回答 3 投票 5

在Apache Beam中监视与文件模式匹配的新文件

我在GCS或其他受支持的文件系统上有一个目录,外部进程正在将新文件写入该目录中。我想编写一个持续不断的Apache Beam流管道...

回答 2 投票 4

Apache的光束S3文件系统扩展总是需要AWS区域输入即使在没有我们我的项目内的其他管线AWS

我用Java编写的与内它多波束管道,我编译成一个jar文件在服务器上执行的项目。一切正常,目前在那里我只是从GCP资源读书,但...

回答 1 投票 1

数据流:访问值提供管道完成后,

我试图我的流水线完成,其中表在运行时传入因日期的版本后做一个滞后的更新。作为该代码为模板,需要使用的执行...

回答 1 投票 1

光束/数据流:maxTimestamp拓扑没有窗口定义

什么是一个全球性的窗口maxTimestamp的预期行为?我有无限源的拓扑不指定窗战略。当我访问BoundedWindow的maxTimestamp场,我...

回答 1 投票 0

在Apache中梁全局窗口基于时间的触发

我在寻找清晰的文档和/或和示例如何设置在Apache的光束全局窗口基于时间触发。目的是自上次触发执行事件的计数...

回答 1 投票 2

阿帕奇梁 - 如何触发空窗?

我试图做的Apache束(Dataflowrunner)一个简单的运行计数,但有困难的时候找到一个合适的解决方案。该管线的目标:PubSub的输入:事件PubSub的输出:每30 ...

回答 1 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.