.gz 文件是不可分割的。但如果我将它们放在 HDFS 中,它们会根据块大小创建多个块

问题描述 投票:0回答:1

我们都知道.gz 是不可分割的,这意味着只有单核可以读取它。这意味着,当我将一个巨大的 .gz 文件放在 HDFS 上时,它实际上应该作为单个块存在。我看到它被分割成 128MB 的块,怎么可能在 HDFS 中分割而不是在 Spark 中分割?

apache-spark hadoop split hdfs
1个回答
0
投票

从HDFS的角度来看,不可分割意味着块不能并行处理;这并不意味着大文件不能跨越多个块。

© www.soinside.com 2019 - 2024. All rights reserved.