Google Dataproc可抢占工作人员的初始化操作

问题描述 投票:1回答:1

我目前正在使用具有固定数量工作人员的Dataproc群集。每个worker都有一个非平凡的初始化操作,需要在worker上安装一些特定的库。

最近,我们决定尝试使用一些可抢占的工作者,但我们的Spark工作失败了,因为缺少一些库。原因似乎是对可抢占工人没有初始化操作。事实上,我已经使用ssh连接到这些工作者,我完全确定初始化脚本不会在这些可抢占的工作程序上执行,因为预期的库不在那里,我们的初始化脚本会留下执行日志,这是缺失的。

这是正常情况吗?如何确保我的可抢占工作者运行我的自定义初始化操作脚本?

google-cloud-dataproc
1个回答
2
投票

这绝对不正常。 Dataproc应确保节点在完全初始化之前不加入集群(along with other guarantees)。

我最好的猜测是存储库可能是片状或过载的,安装库的实际步骤会失败,但整个脚本却没有。你能尝试在init动作的顶部添加set -e吗?

您还可以通过SSH连接到节点并检查/var/log/dataproc-startup-script*中init操作的日志。

© www.soinside.com 2019 - 2024. All rights reserved.