正在读取HDFS小型分区？

问题描述投票：0回答：1

我们的数据以日期作为分区列加载到hdfs中。问题是每个分区的小文件大小都小于50mb。因此，当我们从所有这些分区读取数据以将数据加载到下一张表时，需要花费数小时。我们如何解决这个问题？

java scala apache-spark cloudera-cdh spark2.4.4

1个回答

1
投票

我建议您结束一天的工作以合并/合并并制作一个很大的文件，该文件的大小要大得多，以便在从Spark读取之前在Spark中进行处理。

进一步阅读cloudera博客/文档解决这些问题Partition Management in Hadoop讨论了解决这些问题的几种技术，例如

1. 合并所选表上的分区
1. 存档冷数据
1. 删除分区

选择cloudera博客中讨论的一种技术来满足您的需求。希望这会有所帮助！

最新问题

© www.soinside.com 2019 - 2024. All rights reserved.