使用GCP Composer运行Hive查询

问题描述 投票:2回答:2

所以我打算使用GCP Composer来运行一些Hive作业。

使用Hive和Dataproc是最好的方法吗?

应该在哪里存储数据? Dataproc可以从Google云端存储桶中读取数据吗?

python google-cloud-platform airflow google-cloud-dataproc google-cloud-composer
2个回答
1
投票

您可以通过几种方式在数据业务中提交您的配置单元作业。 YES dataproc从谷歌桶中读取数据。我已经回答了这个问题HERE

很少有人可以在dataporc中提交你的hive工作。 1)您可以通过选择查询选项直接命令。 2)您可以选择查询文件选项,然后提及文件的位置(谷歌存储)。例子就是Here

现在回答你的第一个问题,使用hive和Dataproc是最好的方法吗? - 这完全取决于您的要求。有很多工作选择,你必须根据你的要求选择,因此这是最好的。如果您能够详细说明您的要求,我本可以更清楚地回答。 那么我可以给你一个HIVE JOBS的要点,以便你理清你的要求。

您可以在Hive作业中执行以下操作:

  • 您可以提供内联查询(一个或多个)
  • 你可以给查询命令表单查询文件(一个或多个)
  • 您可以在您的配置单元中添加jar文件 - 这可以用于任何目的,例如UDF(一个或多个)
  • 您可以添加其他属性来配置作业
  • 您可以自动完成工作 这就是基本的蜂巢工作。

气流Data Proc Documentation拥有您可以使用的所有可用操作员。


0
投票

是的,Dataproc可以从GCS Bucket读取数据。例如,请阅读:https://cloud.google.com/solutions/using-apache-hive-on-cloud-dataproc#creating_a_hive_table

然后,您可以使用DataProcHiveOperator使用Cloud Composer在其上运行查询。

© www.soinside.com 2019 - 2024. All rights reserved.