Spark SQL、Hive 和 Presto SQL 在 Parquet 文件之上进行分析

问题描述 投票:0回答:1

我以 Parquet 格式存储了数 TB 的数据,用于分析用例。有多个大表也需要联接,并且查询量很大。该系统预计将具有高度可扩展性。目前正在评估 Spark SQL、Hive 和 Presto SQL。从理论来看,一切似乎都满足要求。您能否阐明这些差异以及上述用例应考虑的事项。除此之外,Tableau 将用于可视化。

apache-spark-sql hiveql presto
1个回答
0
投票

IMO Presto 是一个不错的选择,因为它是针对这个特定用例而设计的,尽管您的其他选项也可以使用。

  • Presto 专为查询而设计 - 它是一个 SQL 查询引擎
  • Spark 是一个数据流引擎。当您想要处理数据并将输出存储在另一个数据库中时使用它 - 这是 ETL 的定义 - 提取(从源读取数据 - 可以是数据库或 Blob 存储)、转换、加载(写入)到另一个数据库中。用例是构建数据管道。
  • 使用 Presto,您通常不会将输出存储在另一个数据库中。您将输出连接到为仪表板供电的 API
  • Hive 是另一个 SQL 查询引擎,但如果您使用 Hive,请将其与 Tez 一起使用。 Hive 告诉 Tez 如何执行查询。 Tez 执行查询。
© www.soinside.com 2019 - 2024. All rights reserved.