我正在训练一个模型,当我在 Google Cloud Platform 控制台中打开 TPU 时,它会向我显示 CPU 利用率(我想是在 TPU 上)。它真的非常非常低(比如 0.07%),所以也许是 VM CPU 的原因? 我想知道训练是否真的正确,或者 TPU 是否真的那么强大。
还有其他方法可以查看TPU的使用情况吗?也许用
ctpu
命令?
(vm)$ capture_tpu_profile --tpu=$TPU_NAME --monitoring_level=2
设置monitoring_level=2显示更详细的信息:
TPU type: TPU v2 Number of TPU Cores: 8 TPU idle time (lower is better): 0.091% Utilization of TPU Matrix Units is (higher is better): 10.7% Step time: 1.95 kms (avg), 1.90kms (minute), 2.00 kms (max) Infeed percentage: 87.5% (avg). 87.2% (min), 87.8 (max)
参考:https://cloud.google.com/tpu/docs/cloud-tpu-tools#monitor_job
如果您使用 TPU 虚拟机,有两种简单的方法可以在不使用 Tensorboard 的情况下执行此操作:
使用 tpu-info(了解更多此处)
$ pip install git+https://github.com/google/cloud-accelerator-diagnostics/#subdirectory=tpu_info
$ tpu-信息
使用 Google Cloud Monitoring(指标浏览器) 转到此链接并选择要绘制的指标:https://console.cloud.google.com/monitoring/metrics-explorer