google-cloud-dataflow 相关问题

Google Cloud Dataflow是一种完全托管的云服务,可用于大规模创建和评估数据处理管道。数据流管道基于Apache Beam编程模型,可以在批处理和流模式下运行。 Cloud Dataflow是Google云端平台的一部分。

将数据集参数添加到列中,以便稍后使用DataPrep在BigQuery中使用它们

我正在通过Google DataPrep从Google云端存储(GCS)导入多个文件,并将结果存储在Google BigQuery的表格中。 GCS上的结构看起来像这样:// source / user / ...

回答 2 投票 3

没有外部IP地址可以运行Google Cloud Dataflow吗?

在扩大我们对Google Cloud Dataflow的使用时,我们注意到的一点是,我们将开始在使用中使用IP地址的配额上运行。我们知道申请配额......

回答 2 投票 2

Google Cloud Dataflow流媒体管道在大约25天后就会挂起

我们正在运行多个流数据流管道,这些管道总是最终挂起,需要在运行大约25天后重新启动。有没有人看到这个?有没有某种最大时间......

回答 1 投票 0

按键分组后的简单计数步骤在DataFlow管道中非常慢

我有一个DataFlow管道尝试构建索引(键值对)并计算一些指标(如每个键的多个值)。输入数据总共约为60 GB,存储在GCS和管道上......

回答 1 投票 1

如何在使用大查询流时监控加载到BQ表中的记录数?

我们正在尝试使用数据流将数据插入bigquery(流式传输)。有没有办法可以检查插入Bigquery的记录数量?我们需要这些数据进行对帐......

回答 2 投票 1

Google App Engine无法启动Dataflow作业

这是我失败时打印出来的错误消息。我正在使用Dev Local服务器,并转到http:// localhost:8080 / dataflow / schedule进行doGet()调用以启动Dataflow管道。我也是 ...

回答 1 投票 0

使用Google Dataflow在批处理模式下使用KafkaIO

Google Dataflow作业使用Apache Beam的KafkaIO库与AvroIO和Windowed Writes将输出写入Google Cloud Storage存储桶中的“.avro”文件。但是,它默认为Streaming为...

回答 1 投票 1

将Apache Beam版本升级到2.11.0失败,并通过apache airflow进行编排

Apache Beam Python SDK升级到2.11.0问题。我正在使用requirements.txt将sdk从2.4.0升级到2.11.0。它具有以下依赖关系:apache_beam == 2.11.0 google-cloud-dataflow == ...

回答 1 投票 1

上载数据流模板时RuntimeValueProvider问题

每当我按照以下说明尝试使用add_value_provider_argument执行我的管道模板时:https://cloud.google.com/dataflow/docs/templates/creating-templates,管道会尝试...

回答 1 投票 0

用于在Dataflow中进行分组的自定义键

我希望能够通过自定义键使用分组,但这是我到目前为止的尝试,我们使用自定义类来处理KV对象的键,因为我们希望GroupBy具有更复杂的条件......

回答 2 投票 1

Apache Beam每用户会话窗口未合并

我们有一个拥有用户的应用程序;每个用户使用我们的应用程序,每次使用10-40分钟,我想计算基于...的每个会话骚扰的事件的分布/事件...

回答 1 投票 2

如何使用数据流并行读取pubsub源代码

我是数据流的新手,我正在寻找构建将使用pubsub作为源的管道。我一直致力于流式传输管道,它作为流引擎和kafka作为源代码,我们可以......

回答 1 投票 0

Beam运行器如何确定每个PCollection包的大小

根据Apache Beam Execution Model - 捆绑和持久性:“PCollection中的元素不是同时处理所有元素,而是捆绑处理。...的划分...

回答 1 投票 1

将unicode解析为python数据类型

我正在使用python处理数据流。我在使用python中的内置类型()推断数据类型时遇到问题。我尝试使用utf-8编码该值并在值上应用type()但它返回str ...

回答 2 投票 0

DataFlow中的Pub / Sub自定义时间戳和窗口(Apache Beam)

我想在Apache Beam中使用流管道实现以下场景(并在Google DataFlow上运行):从Pub / Sub读取消息(JSON字符串)反序列化JSON使用自定义字段(...

回答 1 投票 0

完成CheckpointMark的梁模型合同

我正在研究使用KafkaIO从Kafka读取消息的管道,我正在查看commitOffsetsInFinalize()选项和KafkaCheckpointMark类。我想达到至少一次的消息......

回答 2 投票 0

如何通过侧输入将两个Pcollections(各种大小/数据)与一个共同的“键”(Street)合并?

我有两个PCollections:一个从Pub / Sub中提取信息,另一个从CSV文件中提取数据。在每个管道中进行了一些不同的转换之后,我想将它们合并在一个公共密钥上,它们都是......

回答 1 投票 0

Dataflow使用哪个持久存储来保持Apache Beam Timers的持久状态?

它不是明确的,但我认为Dataflow可以使用永久磁盘资源无论如何我无法找到确认。我想知道我是否能够承担这些局限和预期......

回答 1 投票 1

Google Cloud Shell - 如何解决CERTIFICATE_VERIFY_FAILED错误?

我有简单的数据流管道并尝试从云外壳执行,代码:从__future__ import print_function导入apache_beam作为来自apache_beam.options.pipeline_options导入的光束...

回答 2 投票 0

使用Dataflow Java代码加入嵌套结构表

我的目标是连接两个表,其中第二个表是正常的,第一个表是嵌套结构表。连接键在第一个表的嵌套结构中可用。在这种情况下, ...

回答 1 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.