执行TextIO时有什么方法可以限制记录?

问题描述 投票:0回答:1

我有一个用例,其中我正在读取数十亿条记录,但是我需要限制记录以查看数据行为。我有一个pardo,在其中分析有限的数据并基于此执行一些功能。但是我正在读取全部十亿条记录,然后在Pardo内应用限制以获取10000条记录。由于我的管道正在读取数十亿条记录,因此会影响管道性能。有什么办法可以限制使用TextIO读取文本文件时的记录。

google-cloud-dataflow apache-beam apache-beam-io
1个回答
0
投票

您从哪里读取记录?我认为答案取决于此。

如果它们全部来自例如相同的文件,那么我不认为Beam支持对其中的一部分进行采样。如果是这样,例如从不同的文件中,也许您可​​以设计使用的文件匹配模式,以便仅读取其中的一些?

© www.soinside.com 2019 - 2024. All rights reserved.