我们的数据以日期作为分区列加载到hdfs中。问题是每个分区的小文件大小都小于50mb。因此,当我们从所有这些分区读取数据以将数据加载到下一张表时,需要花费数小时。我们如何解决这个问题?
我建议您结束一天的工作以合并/合并并制作一个很大的文件,该文件的大小要大得多,以便在从Spark读取之前在Spark中进行处理。
进一步阅读cloudera博客/文档解决这些问题Partition Management in Hadoop讨论了解决这些问题的几种技术,例如
选择cloudera博客中讨论的一种技术来满足您的需求。希望这会有所帮助!