我有具有以下架构的数据
person_id | category_id | date | type
[每天收集的数据平均接近95GB。我的用例是在提供的日期范围内获取给定category_id的所有person_id。这在csv文件的hdfs中存在。当使用spark处理3周时,实际转储需要花费半小时的时间。如何对其进行预处理以提高我的Spark工作的绩效?我尝试按日期分组,但没有太大帮助。
您可以从以下步骤开始(因为我们没有关于您的数据或集群的详细信息。请共享您的Spark Web UI屏幕截图)
date
或person_id
分区