Google AI Platform:副本主服务器 0 以非零状态 127 退出

问题描述 投票:0回答:2

有一个类似的问题:ML Engine 上的 Tensorflow:副本主 0 以非零状态 1 退出

但是在这里,我遇到了错误“127”。与这个问题类似,我在 AI Platform(以前称为 ML Engine)上启动了一个 pytorch 自定义训练容器,大约 2 分钟后,我收到错误消息“副本主 0 退出,状态为非零状态 127”。

这里的文档并没有完全说明“127”的含义:https://cloud.google.com/ai-platform/training/docs/troubleshooting#understand_training_application_return_codes

有人有想法吗?

google-cloud-ml
2个回答
4
投票

就我而言,问题是我在

Dockerfile
中使用
CMD
而不是 ENTRYPOINT

让我们像这样使用

ENTRYPOINT
文档:使用自定义容器训练 ML 模型

#CMD ["python", "trainer/mnist.py"]
# failed -> the replica master 0 exited with a non-zero status of 127

# Try ENTRYPOINT!
ENTRYPOINT ["python", "trainer/mnist.py"]

这个解决方案可能不是您的情况的原因,检查原因是否是 Dockerfile 可能是个好主意 🙂 检查上面链接中的示例 Dockerfile 和您自己的 Dockerfile 之间的差异可能会很有用。


0
投票

确保您的 docker 镜像的架构与使用 amd64 架构的 vertexai 工作节点兼容,例如,如果您在 mac M2 上构建,则它是不兼容的:

docker buildx create --use

docker buildx build --platform linux/amd64 -t "name of your image on google cloud"
最新问题
© www.soinside.com 2019 - 2025. All rights reserved.