我在Java SDK文档中看到,我们可以在FileIO.ReadableFile实用程序类-https://beam.apache.org/releases/javadoc/2.2.0/org/apache/beam/sdk/io/FileIO.ReadableFile.html#open--中指定压缩。
但是,我在使用Python作为参数(apache_beam.io.fileio.ReadMatches(compression=None, skip_directories=True)
)的地方,但是浏览源代码后,我认为它没有任何作用-https://beam.apache.org/releases/pydoc/2.16.0/apache_beam.io.fileio.html#apache_beam.io.fileio.ReadMatches
有人可以确认我是否可以使用此类打开bz2文件吗?
我特别需要它,因此我可以使用元数据(用于文件名的metadata.path),因此,如果有人对如何将文件名添加到每行作为侧面输入有一些创意,请也共享它们。 >
我在Java SDK文档中看到,我们可以在FileIO.ReadableFile实用程序类中指定压缩-https://beam.apache.org/releases/javadoc/2.2.0/org/apache/beam/sdk/io / FileIO ....
[尚不可能(如@Pablo的回答),但是,如果要立即开始,则可以从decompressorBulkTemplate of Dataflow开始。有很多行,但是代码并不难理解。
不要写出来,解压缩后再处理文件。这是从今天开始的好起点。