我以 Parquet 格式存储了数 TB 的数据,用于分析用例。有多个大表也需要联接,并且查询量很大。该系统预计将具有高度可扩展性。目前正在评估 Spark SQL、Hive 和 Presto SQL。从理论来看,一切似乎都满足要求。您能否阐明这些差异以及上述用例应考虑的事项。除此之外,Tableau 将用于可视化。
IMO Presto 是一个不错的选择,因为它是针对这个特定用例而设计的,尽管您的其他选项也可以使用。