Google AI Platform：副本主服务器 0 以非零状态 127 退出

Question

有一个类似的问题：ML Engine 上的 Tensorflow：副本主 0 以非零状态 1 退出

但是在这里，我遇到了错误“127”。与这个问题类似，我在 AI Platform（以前称为 ML Engine）上启动了一个 pytorch 自定义训练容器，大约 2 分钟后，我收到错误消息“副本主 0 退出，状态为非零状态 127”。

这里的文档并没有完全说明“127”的含义：https://cloud.google.com/ai-platform/training/docs/troubleshooting#understand_training_application_return_codes

有人有想法吗？

Answer 1

就我而言，问题是我在

Dockerfile

中使用

CMD

而不是 ENTRYPOINT。

让我们像这样使用

ENTRYPOINT

文档：使用自定义容器训练 ML 模型

#CMD ["python", "trainer/mnist.py"]
# failed -> the replica master 0 exited with a non-zero status of 127

# Try ENTRYPOINT!
ENTRYPOINT ["python", "trainer/mnist.py"]

这个解决方案可能不是您的情况的原因，检查原因是否是 Dockerfile 可能是个好主意 🙂 检查上面链接中的示例 Dockerfile 和您自己的 Dockerfile 之间的差异可能会很有用。

Answer 2

确保您的 docker 镜像的架构与使用 amd64 架构的 vertexai 工作节点兼容，例如，如果您在 mac M2 上构建，则它是不兼容的：

docker buildx create --use

docker buildx build --platform linux/amd64 -t "name of your image on google cloud"

Google AI Platform：副本主服务器 0 以非零状态 127 退出

问题描述投票：0回答：2

2个回答

最新问题

Google AI Platform：副本主服务器 0 以非零状态 127 退出

问题描述 投票：0回答：2

2个回答

最新问题

问题描述投票：0回答：2