我很困惑,我应该使用哪种组合来实现我的目标,我需要在HDFS中存储数据,并需要根据查询的数据进行分析。
我有一些疑问。
- 如果我使用hive和hadoop,那么它将使用map reduce,这将会减慢我的查询速度(因为我使用hadoop HDFS在这里进行数据存储)
- 而不是hadoop,如果我使用spark引擎来评估我的查询,它会更快,但HDFS怎么样。我将不得不创建另一个hadoop集群来存储数据在HDFS。
- 如果我们有spark sql,那么hive的必要性是什么?
- 如果我使用spark sql,那么它将如何连接到HDFS?
如果有人能解释这些工具的使用。谢谢!