我们都知道.gz 是不可分割的,这意味着只有单核可以读取它。这意味着,当我将一个巨大的 .gz 文件放在 HDFS 上时,它实际上应该作为单个块存在。我看到它被分割成 128MB 的块,怎么可能在 HDFS 中分割而不是在 Spark 中分割?
从HDFS的角度来看,不可分割意味着块不能并行处理;这并不意味着大文件不能跨越多个块。