我正在尝试使用 Google 数据流模板将数据从 Bigtable 导出到 Google Cloud Storage (GCS)。我正在关注 gcloud 命令详细信息此处。但是,在运行时,我收到警告和相关错误,其中建议的修复是添加工作人员 (--numWorkers),增加附加的磁盘大小 (--diskSizeGb)。但是,我认为在传递这些参数时无法执行 Google 提供的模板。艾米,我错过了什么吗?
回顾一个单独的问题,似乎有办法做到这一点。有人能解释一下怎么做吗?
像
numWorkers
和diskSizeGb
这样的参数是数据流宽管道选项。您应该能够像这样指定它们
gcloud dataflow jobs run JOB_NAME \
--gcs-location LOCATION --num-workers=$NUM_WORKERS --diskSizeGb=$DISK_SIZE
如果您还有其他问题,请告诉我
解决方法是为您的 Flex 模板创建一个metadata.json (https://cloud.google.com/dataflow/docs/guides/templates/configuring-flex-templates#metadata),并在那里定义一个参数,例如所以:
...
{
"name": "disk_size_gb",
"label": "Disk Size in Gb for the worker",
"helpText": "Disk Size in Gb for the worker"
}
...