有一个类似的问题:ML Engine 上的 Tensorflow:副本主 0 以非零状态 1 退出
但是在这里,我遇到了错误“127”。与这个问题类似,我在 AI Platform(以前称为 ML Engine)上启动了一个 pytorch 自定义训练容器,大约 2 分钟后,我收到错误消息“副本主 0 退出,状态为非零状态 127”。
这里的文档并没有完全说明“127”的含义:https://cloud.google.com/ai-platform/training/docs/troubleshooting#understand_training_application_return_codes
有人有想法吗?
就我而言,问题是我在
Dockerfile中使用
CMD
而不是 ENTRYPOINT
。
让我们像这样使用
ENTRYPOINT
文档:使用自定义容器训练 ML 模型
#CMD ["python", "trainer/mnist.py"]
# failed -> the replica master 0 exited with a non-zero status of 127
# Try ENTRYPOINT!
ENTRYPOINT ["python", "trainer/mnist.py"]
这个解决方案可能不是您的情况的原因,检查原因是否是 Dockerfile 可能是个好主意 🙂 检查上面链接中的示例 Dockerfile 和您自己的 Dockerfile 之间的差异可能会很有用。
确保您的 docker 镜像的架构与使用 amd64 架构的 vertexai 工作节点兼容,例如,如果您在 mac M2 上构建,则它是不兼容的:
docker buildx create --use
docker buildx build --platform linux/amd64 -t "name of your image on google cloud"