GCP数据流，Dataproc，Bigtable

Question

我正在选择服务来编写和转换从Cloud Pub / Sub到BigQuery的JSON消息，以便在Google Cloud上建立数据管道。我想尽量减少服务费用。我还希望监控和容纳大小不同的输入数据量，只需最少的人工干预。我该怎么办？

A.使用Cloud Dataproc运行转换。监视群集的CPU利用率。通过命令行调整群集中的工作节点数。

B.使用Cloud Dataproc运行转换。使用diagnose命令生成操作输出存档。找到瓶颈并调整群集资源。

C.使用Cloud Dataflow运行转换。使用Stackdriver监视作业系统延迟。使用工作线实例的默认自动缩放设置。

D.使用Cloud Dataflow运行转换。监控作业抽样的总执行时间。将作业配置为在需要时使用非默认计算引擎机器类型。

Answer 1

C！

在pubsub上使用Dataflow来转换数据并让它将行写入BQ。您可以直接从数据流监视ETL管道，并在顶部使用stackdriver。 Stackdriver也可用于启动事件等。

使用自动缩放可以最大限度地减少手动操作的数量。基本上，当正确设置此解决方案时，它根本不需要工作。