Spark SQL、Hive 和 Presto SQL 在 Parquet 文件之上进行分析

Question

我以 Parquet 格式存储了数 TB 的数据，用于分析用例。有多个大表也需要联接，并且查询量很大。该系统预计将具有高度可扩展性。目前正在评估 Spark SQL、Hive 和 Presto SQL。从理论来看，一切似乎都满足要求。您能否阐明这些差异以及上述用例应考虑的事项。除此之外，Tableau 将用于可视化。

Answer 1

IMO Presto 是一个不错的选择，因为它是针对这个特定用例而设计的，尽管您的其他选项也可以使用。

Presto 专为查询而设计 - 它是一个 SQL 查询引擎
Spark 是一个数据流引擎。当您想要处理数据并将输出存储在另一个数据库中时使用它 - 这是 ETL 的定义 - 提取（从源读取数据 - 可以是数据库或 Blob 存储）、转换、加载（写入）到另一个数据库中。用例是构建数据管道。
使用 Presto，您通常不会将输出存储在另一个数据库中。您将输出连接到为仪表板供电的 API
Hive 是另一个 SQL 查询引擎，但如果您使用 Hive，请将其与 Tez 一起使用。 Hive 告诉 Tez 如何执行查询。 Tez 执行查询。

Spark SQL、Hive 和 Presto SQL 在 Parquet 文件之上进行分析

问题描述投票：0回答：1

1个回答

最新问题

Spark SQL、Hive 和 Presto SQL 在 Parquet 文件之上进行分析

问题描述 投票：0回答：1

1个回答

最新问题

问题描述投票：0回答：1