apache beam python SDK SDK.ReadMatches是否支持压缩文件?

问题描述 投票:-1回答:1

我在Java SDK文档中看到,我们可以在FileIO.ReadableFile实用程序类-https://beam.apache.org/releases/javadoc/2.2.0/org/apache/beam/sdk/io/FileIO.ReadableFile.html#open--中指定压缩。

但是,我在使用Python作为参数(apache_beam.io.fileio.ReadMatches(compression=None, skip_directories=True))的地方,但是浏览源代码后,我认为它没有任何作用-https://beam.apache.org/releases/pydoc/2.16.0/apache_beam.io.fileio.html#apache_beam.io.fileio.ReadMatches

有人可以确认我是否可以使用此类打开bz2文件吗?

我特别需要它,因此我可以使用元数据(用于文件名的metadata.path),因此,如果有人对如何将文件名添加到每行作为侧面输入有一些创意,请也共享它们。 >

我在Java SDK文档中看到,我们可以在FileIO.ReadableFile实用程序类中指定压缩-https://beam.apache.org/releases/javadoc/2.2.0/org/apache/beam/sdk/io / FileIO ....

python google-cloud-platform google-cloud-dataflow apache-beam
1个回答
0
投票

[尚不可能(如@Pablo的回答),但是,如果要立即开始,则可以从decompressorBulkTemplate of Dataflow开始。有很多行,但是代码并不难理解。

不要写出来,解压缩后再处理文件。这是从今天开始的好起点。

© www.soinside.com 2019 - 2024. All rights reserved.