Hive与Hadoop vs Hive与spark vs spark sql vs HDFS - 它们之间如何工作？

问题描述投票：-1回答：1

我很困惑，我应该使用哪种组合来实现我的目标，我需要在HDFS中存储数据，并需要根据查询的数据进行分析。

我有一些疑问。

如果我使用hive和hadoop，那么它将使用map reduce，这将会减慢我的查询速度(因为我使用hadoop HDFS在这里进行数据存储)
而不是hadoop，如果我使用spark引擎来评估我的查询，它会更快，但HDFS怎么样。我将不得不创建另一个hadoop集群来存储数据在HDFS。
如果我们有spark sql，那么hive的必要性是什么？
如果我使用spark sql，那么它将如何连接到HDFS？

如果有人能解释这些工具的使用。谢谢!

apache-spark hadoop hive apache-spark-sql hdfs

1个回答

2
投票

你可以在Spark上使用Hive。https:/cwiki.apache.orgconfluencedisplayHiveHive+on+Spark。
你不需要再创建一个Hadoop集群。Spark可以从HDFS访问数据。
Spark可以与Hive一起工作，也可以不与Hive一起工作。
Spark可以连接到多个数据源，包括HDFS。

最新问题

© www.soinside.com 2019 - 2024. All rights reserved.