apache-beam 相关问题

Apache Beam是用于批处理和流处理的统一SDK。它允许使用特定于Beam的DSL指定大规模数据处理工作流程。 Beam工作流可以在不同的运行时执行,如Apache Flink,Apache Spark或Google Cloud Dataflow(云服务)。

UnsolvableVersionConflictException更新Apache光束版本

当前,我在GCP(数据流)中使用Apache Beam 2.18.0,我想将其更新为2.20.0。问题是,如果我在pom中使用2.20.0而不是2.18.0,则会出现以下错误文件:...

回答 1 投票 1

Apache beam IllegalArgumentException:不安全的触发器可能会丢失数据

使用以下窗口函数Window。 > to(FixedWindows.of(Duration.standardDays(1))).triggering(AfterWatermark.pastEndOfWindow()...

回答 1 投票 0

GCP数据流抛出异常随机密钥太大

我有一个可以对数据进行分组的代码,但是在输出时会引发异常。类CustomGroupPairsFn扩展了DoFn ,MyCustomObject> {@ProcessElement public ...

回答 1 投票 0

数据流错误提供pubsub主题作为参数

我遇到一个问题,即我正在使用python创建数据流模板,并且该模板在启动新的数据流作业时需要接受3个用户定义的参数。该问题出现在beam.io ....

回答 1 投票 0

在Apache Beam中为每个窗口成功发射输出文件之后,是否有一种方法可以创建最后创建的空文件?

我有一个流传输管道,它使用带有时间戳标记的事件。我要做的就是将它们分别批处理到5分钟的FixedWindows中,然后将窗口中的所有事件写入单个/ ...

回答 1 投票 0

我们可以将Webhook与Google PubSub连接吗?

我正在尝试将来自外部webhook / RSS feed的数据流式传输到我的Dataflow中。我当时正在考虑使用pub / sub来接收消息,然后在Dataflow中对其进行处理。但是,我找不到选项...

回答 1 投票 0

setup.py自定义命令apt-get引发错误代码100

我正在使用apache-beam推荐格式创建setup.py文件:(Apache Beam Python 3.5 SDK 2.20.0)https://github.com/apache/beam/blob/master/sdks/python/apache_beam/例子/完整/ juliaset / ...

回答 1 投票 0

从公共输入的Apache Beam中分支和合并pcollection列表

我正在建立数据流管道,但在分支和合并输出时遇到了一些麻烦。我要构建的管道如下:读取一些输入数据input_data。 A.提取一些指标,...

回答 1 投票 0

写入BigQuery时出现Cloud Dataflow性能问题

我正在尝试使用Cloud Dataflow(Beam Python SDK)对其进行读写。读写2000万条记录(约80 MB)大约需要30分钟。看数据流DAG I ...

回答 1 投票 0

将`add_value_provider_argument`与apache beam io函数一起使用将创建“ RuntimeValueProviderError”

我正在尝试创建一个将输入参数作为RuntimeValue的数据流模板。按照docs import中的示例,从apache_beam.io中重新导入apache_beam作为梁导入...

回答 1 投票 0

ParDo函数不等待Apache BEAM中的Window

[我已经在Apache BEAM中创建了一个窗口,以等待窗口到期或窗口太满(消息是无界的并且来自发布/订阅队列):.apply(“ Window”,Window。 ] >

回答 1 投票 0

Apache Beam GroupByKey复制事件

[我在Java中有一个Apache光束管道,看起来像这样: [

回答 1 投票 0

Apache Beam GCP在动态创建的目录中上传Avro

我想在GCP中创建一个流式Apache Beam管道,该管道从Google Pub / Sub读取数据并将其推送到GCS。我可以从Pub / Sub读取数据。我当前的代码如下所示(...

回答 3 投票 0


读取图像作为Apache Beam管道的输入

我想使用Apache Beam来制作机器学习管道,该管道从本地文件夹读取图像,然后对其进行预处理。我发现了一些示例,该示例说明如何将.txt或.csv文件作为对...

回答 1 投票 -1

用于分支管道的Apache Beam python代码

我正在使用Dataflow加载CSV文件,其中取决于第一列值的每条记录都需要写入特定的bigquery表中。以下简单解释:输入文件-1,...

回答 1 投票 0

Beam DoFn跨JVM共享的静态变量

所以,我试图弄清楚Beam DoFn中静态变量的行为,它是否在线程之间共享(在同一JVM中)?基本上试图从编程中理解以下内容...

回答 1 投票 1

Apache Beam中HDFS群集的其他配置

有人知道在Apache Beam中是否可以为HDFS指定其他xml配置文件吗?如我所见,它有两个选项:启动命令中的hdfsConfiguration属性。核心站点。...

回答 1 投票 0

无法在macOS上安装apache-beam

我正在尝试在我的python垂直环境中安装apache-beam,但是没有用!我遵循了apache beam org [Apache Beam Python SDK快速入门]提供的步骤,但是在执行pip ...

回答 1 投票 0

是否可以将复合触发器与带有数据流的微批处理结合使用?

我们有一个无界的PCollection PCollection 我们正在插入BigQuery的源。每50万条消息或五分钟触发Windows的一种简单的“按书预定”方法是:...

回答 1 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.