google-cloud-dataflow 相关问题

Google Cloud Dataflow是一种完全托管的云服务,可用于大规模创建和评估数据处理管道。数据流管道基于Apache Beam编程模型,可以在批处理和流模式下运行。 Cloud Dataflow是Google云端平台的一部分。

使用Google Dataflow转换的Avro vs Parquet在Google云端存储中

使用Google Dataflow服务将来自Kafka的相同10k json记录批量加载到Google云存储中。以下是使用Apache Beam的AvroIO生成的文件分解,......

回答 1 投票 2

Dataflow TextIO.write涉及扩展问题

我创建了一个简单的数据流管道,它从pubsub读取字节数组,将它们写入窗口,然后写入GCS中的文本文件。我发现在交通流量较低的情况下,这种方法非常完美,但我运行它...

回答 1 投票 0

数据流作业失败,输出属性丢失错误

虽然将输出参数作为参数传递,但数据流管道作业失败并且消息输出属性丢失。错误:线程“main”中的异常java.lang.IllegalArgumentException:类接口...

回答 2 投票 1

Java应用程序中的Maven冲突与google-cloud-core-grpc依赖关系

(我还为此提出了一个GitHub问题 - https://github.com/googleapis/google-cloud-java/issues/4095)我有Apache Beam的以下两个依赖项的最新版本:依赖关系1 - 。 ..

回答 2 投票 6

PAssert不匹配字符串

我正在测试Google Cloud Dataflow Pipeline函数,如下所示:@Test public void testOutputExceptionsToFile(){Logger logger =(Logger)LoggerFactory.getLogger(EligibilityQueryRunner.class); ...

回答 1 投票 0

数据流:在事件流中查找上一个事件

恢复我想要在Google Dataflow中使用Apache Beam做的事情就像Azure流分析中的LAG一样,使用X分钟的窗口我正在接收数据:|||||| |||||| ||||| ...

回答 1 投票 1

已丢弃的延迟消息的Cloud Dataflow指标

Apache Beam是否会发出关于丢弃了多少(延迟)消息的指标?无论是在DirectRunner还是DataflowRunner上。谢谢!

回答 1 投票 0

Apache Beam - CassandraIO写异步 - 2.6.0错误

我正在使用以下库来执行apache beam来运行数据流作业以从BigQuery和Store / Write向Cassandra读取数据。 beam-sdks-java-io-cassandra - 2.6.0 beam-sdks-java-io-jdbc - 2.6.0 beam -...

回答 2 投票 2

数据流模板作业未采用输入参数

我有一个使用以下命令创建的数据流模板python scrap.py --setup_file /home/deepak_verma/setup.py --temp_location gs:// visualization-dev / temp --staging_location gs:// visualization -...

回答 2 投票 0

如何将hdfs文件读入apache beam?

我无法理解如何使用TextIO阅读它。有人可以用例子解释一下吗?

回答 1 投票 1

Kafka:使用Apache Beam完成一次语义配置

我试图在Kafka(Apache Beam)中完全配置一次语义。以下是我将要介绍的更改:Producer:enable.idenpotence = true transactional.id = uniqueTransactionalId ...

回答 1 投票 0

Apache beam python从字典列表中获取不同的值

我有数据流中的字典列表。我已将列转换为键值对的字典。现在我想获得每列的不同值。如何在数据流中执行此操作而不发送...

回答 1 投票 1

Hive to GCP BigQuery Sync

我们需要定期(每小时/每天/任何)将数据从Hive表(Hadoop)移动到GCP(Google Cloud Platform)BigQuery。有多个表,数据量巨大。请你 ...

回答 1 投票 0

Distinct引发错误(llegalStateException:GroupByKey的keyCoder必须是确定性的)

使用Dataflow Job从bigQuery表读取数据时,尝试避免集合中的重复。对于那个使用beam.sdk.transforms.Distinct来读取具有不同的记录。但得到以下......

回答 1 投票 0

加入有界和无界源,数据流作业不缩放

最近,我开始使用Apache Beam和Google的Cloud Data Flow来开发大数据处理管道。我打算利用Beam的内部状态处理模型来......

回答 1 投票 1

无法使用google-cloud-pubsub-0.37.2在python 2.7中导入WriteToPubSub

我试图在从csv读取并编写一些转换后利用写入pubsbub,然而,一旦我到了需要开始使用pubsub的点,我无法导入。这是 ...

回答 2 投票 0

使用Dataflow的处理偏向于一个节点

处理不由DataFlow分发,而是由一个节点处理。我创建了以下程序并验证它是否可以正常使用小数据。从BigQuery读取数据→Dofn ...

回答 1 投票 0

GCP数据流,Dataproc,Bigtable

我正在选择服务来编写和转换从Cloud Pub / Sub到BigQuery的JSON消息,以便在Google Cloud上建立数据管道。我想尽量减少服务费用。我也想监视和......

回答 1 投票 0

如何在Apache Beam中提取Google PubSub发布时间

我的目标是能够访问由Apache Beam(Dataflow)中的Google PubSub记录和设置的PubSub消息发布时间。 PCollection pubsubMsg = pipeline.apply(...

回答 1 投票 2

数据流中带有时间戳的进程字段

我正在使用以下格式从Google Cloud Pub / Sub收到消息:{u'date':u'2019-03-26T09:57:52Z','field1':value1,u'field2':u'value2', u'field3':u'value3',u'field4':u'value4',...}我......

回答 1 投票 1

© www.soinside.com 2019 - 2024. All rights reserved.