google-cloud-dataflow 相关问题

Google Cloud Dataflow是一种完全托管的云服务,可用于大规模创建和评估数据处理管道。数据流管道基于Apache Beam编程模型,可以在批处理和流模式下运行。 Cloud Dataflow是Google云端平台的一部分。

由于未找到ext4,数据流(Beam 2.12)无法启动

我在运行数据流作业时看到了所有类型的奇怪错误(Beam 2.12)。该作业基本上从pubsub获取输入,从/向Datastore读/写将结果写入pubsub。一些 ...

回答 1 投票 0

Google Cloud Dataflow Python,检索作业ID

我目前正在使用Python中的数据流模板,我想访问作业ID并使用它来保存到特定的Firestore文档。是否可以访问作业ID?我找不到 ...

回答 3 投票 1

dataflow bigquery单元测试

我有一个数据流管道,从GCS中的文件读取数据,转换它并将结果放到BQ。我创建了测试,检查预期的TableRows是否在PCollection中,但我怎么能......

回答 1 投票 0

导入WriteToDatastore时出错(Apache Beam / Google DataFlow)

我正在尝试使用Apache Beam管道将实体写入Google Cloud Datastore。为了测试,我在使用Apache Beam设置的本地Python 2.7虚拟环境中执行此操作...

回答 1 投票 2

在Apache Beam / DataFlow中计算无界流的定期检查点

我正在使用全局无界流与状态处理和计时器相结合,以便按事件时间戳完全按顺序对每个键进行排序。解决方案的答案是......

回答 1 投票 0

使用TFRecord和压缩GZIP的Beam Java SDK

我们正在使用Beam Java SDK(以及Google Cloud Dataflow来运行批处理作业),当我们尝试将TFRecordIO与Compression.GZIP一起使用时,我们发现了一些奇怪的东西(可能是一个错误?)。我们有能力 ...

回答 1 投票 0

使用CoGroupByKey传输Java SDK 2.4 / 2.5 PAssert

我可能会遗漏一些明显的东西,但由于某些原因我无法使PAssert和TestPipeline与CoGroupByKey一起工作 - 但没有它,它可以正常工作。这是一个参考测试文件,可以......

回答 1 投票 0

使用ParquetIO通过Apache Beam读取和编写镶木地板文件的示例

有没有人尝试使用Apache Beam读/写Parquet文件。最近在版本2.5.0中添加了支持,因此没有太多文档。我正在尝试读取json输入文件,并想写...

回答 2 投票 3

Dataflow管道处理完所有数据后执行操作

批处理数据流作业完成处理所有数据后,是否可以执行操作?具体来说,我想将刚刚处理的管道的文本文件移动到不同的GCS存储桶。 ...

回答 3 投票 3

如何使用Cloud Composer / Apache Airflow运行带有安装文件的Dataflow管道?

我有一个工作的Dataflow管道,第一次运行setup.py来安装一些本地帮助器模块。我现在想使用Cloud Composer / Apache Airflow来安排管道。我已经创建了我的DAG文件并且......

回答 2 投票 0

数据存储区从Dataflow写入同一实体组

我从Dataflow写入数据存储区,pcollection将同一实体组的多个实体写入数据存储区。将它们写入数据存储区会因为相同的实体写入/而慢吗?

回答 1 投票 0

Apache Beam - PCollection中每个键的平均聚合

我有一个PCollection,它由一个ID列和七个值列组成。每个ID有几行。我想计算每个唯一ID的七列的平均值。有办法......

回答 1 投票 0

限制光束应用中的一个步骤

我在谷歌数据流上使用python beam,我的管道看起来像这样:从文件中读取图像网址>>下载图像>>过程图像问题是我不能让下载图像步长为......

回答 1 投票 2

Cloud Dataflow流媒体作业可以归零吗?

我正在使用Cloud Dataflow流管道将从Pub / Sub接收的事件插入到BigQuery数据集中。我需要一些工作来保持每项工作简单易维护。我关心的是......

回答 2 投票 3

Google-cloud-dataflow:无法通过`WriteToBigQuery / BigQuerySink`使用`BigQueryDisposition.WRITE_TRUNCATE'将json数据插入bigquery

给定数据如下{“slot”:“reward”,“result”:1,“rank”:1,“isLandscape”:false,“p_type”:“main”,“level”:1276,“type” :“ba”,“seqNum”:42544} {“slot”:“reward_dlg”,“result”:1,“rank”:1,“isLandscape”:...

回答 1 投票 2

Beam.BigQueryIO:numFileShards是什么?

当我想将未绑定的输入从Kafka加载到BigQuery时,我遇到了.withMethod()选项。通过使用Method.FILE_LOAD,我还必须指定触发频率以及非零...

回答 1 投票 0

Google-cloud-dataflow:为什么管道使用DirectRunner运行两次?

给定数据如下{“slot”:“reward”,“result”:1,“rank”:1,“isLandscape”:false,“p_type”:“main”,“level”:1276,“type” :“ba”,“seqNum”:42544} {“slot”:“reward_dlg”,“result”:1,“rank”:1,“isLandscape”:...

回答 1 投票 0

Beam GCSFileSystem / GcsBufferedWriter性能

我正在尝试从http下载大文件,并在数据流上使用apache-beam python sdk(2.6.0)将这些文件上传到gcs。来自apache_beam.io.gcp.gcsfilesystem导入GCSFileSystem ...

回答 1 投票 0

数据流:在模板中使用运行时参数

尝试为数据流作业创建模板。有没有办法生成带有运行时参数的模板?直到现在,无论在创建模板时使用了什么参数,但是当我......

回答 2 投票 1

使用Apache Beam(并行)查找组件?

给出以下输入:(E1,E2),(E2,E3)和(E3,E4)。是否可以使用Apache Beam框架输出(E1,E2,E3,E4)?我的目标是输出给出的所有连接组件......

回答 1 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.