所以我打算使用GCP Composer来运行一些Hive作业。
使用Hive和Dataproc是最好的方法吗?
应该在哪里存储数据? Dataproc可以从Google云端存储桶中读取数据吗?
您可以通过几种方式在数据业务中提交您的配置单元作业。 YES dataproc从谷歌桶中读取数据。我已经回答了这个问题HERE
很少有人可以在dataporc中提交你的hive工作。 1)您可以通过选择查询选项直接命令。 2)您可以选择查询文件选项,然后提及文件的位置(谷歌存储)。例子就是Here
现在回答你的第一个问题,使用hive和Dataproc是最好的方法吗? - 这完全取决于您的要求。有很多工作选择,你必须根据你的要求选择,因此这是最好的。如果您能够详细说明您的要求,我本可以更清楚地回答。 那么我可以给你一个HIVE JOBS的要点,以便你理清你的要求。
您可以在Hive作业中执行以下操作:
气流Data Proc Documentation拥有您可以使用的所有可用操作员。
是的,Dataproc可以从GCS Bucket读取数据。例如,请阅读:https://cloud.google.com/solutions/using-apache-hive-on-cloud-dataproc#creating_a_hive_table
然后,您可以使用DataProcHiveOperator
使用Cloud Composer在其上运行查询。