我正在选择服务来编写和转换从Cloud Pub / Sub到BigQuery的JSON消息,以便在Google Cloud上建立数据管道。我想尽量减少服务费用。我还希望监控和容纳大小不同的输入数据量,只需最少的人工干预。我该怎么办?
A.使用Cloud Dataproc运行转换。监视群集的CPU利用率。通过命令行调整群集中的工作节点数。
B.使用Cloud Dataproc运行转换。使用diagnose命令生成操作输出存档。找到瓶颈并调整群集资源。
C.使用Cloud Dataflow运行转换。使用Stackdriver监视作业系统延迟。使用工作线实例的默认自动缩放设置。
D.使用Cloud Dataflow运行转换。监控作业抽样的总执行时间。将作业配置为在需要时使用非默认计算引擎机器类型。
C!
在pubsub上使用Dataflow来转换数据并让它将行写入BQ。您可以直接从数据流监视ETL管道,并在顶部使用stackdriver。 Stackdriver也可用于启动事件等。
使用自动缩放可以最大限度地减少手动操作的数量。基本上,当正确设置此解决方案时,它根本不需要工作。