Hive与Hadoop vs Hive与spark vs spark sql vs HDFS - 它们之间如何工作?

问题描述 投票:-1回答:1

我很困惑,我应该使用哪种组合来实现我的目标,我需要在HDFS中存储数据,并需要根据查询的数据进行分析。

我有一些疑问。

  1. 如果我使用hive和hadoop,那么它将使用map reduce,这将会减慢我的查询速度(因为我使用hadoop HDFS在这里进行数据存储)
  2. 而不是hadoop,如果我使用spark引擎来评估我的查询,它会更快,但HDFS怎么样。我将不得不创建另一个hadoop集群来存储数据在HDFS。
  3. 如果我们有spark sql,那么hive的必要性是什么?
  4. 如果我使用spark sql,那么它将如何连接到HDFS?

如果有人能解释这些工具的使用。谢谢!

apache-spark hadoop hive apache-spark-sql hdfs
1个回答
2
投票
  1. 你可以在Spark上使用Hive。https:/cwiki.apache.orgconfluencedisplayHiveHive+on+Spark。
  2. 你不需要再创建一个Hadoop集群。Spark可以从HDFS访问数据。
  3. Spark可以与Hive一起工作,也可以不与Hive一起工作。
  4. Spark可以连接到多个数据源,包括HDFS。
© www.soinside.com 2019 - 2024. All rights reserved.