AWS Databricks 集群启动失败

Question

我目前无法在我们的数据块 AWS 环境中启动任何集群。

当我尝试启动按需集群时，它会保持“挂起”状态 20 多分钟（在相对较小的集群上，通常需要 2-3 分钟才能启动）。

同样，我所有的预定作业都失败了，因为它们的作业集群也无法启动。这是一个示例错误消息：

Run result unavailable: job failed with error message Unexpected failure while waiting for the cluster [cluster_name] to be ready. Cause Cluster [cluster_name] is unusable since the driver is unhealthy.

当我尝试调查问题时，驱动程序日志完全是空的。我尝试启动运行时为 9.1 和 10.4 的集群，但看到了同样的问题。

有人见过这个吗？这是数据块问题还是 AWS 问题？

Answer 1

有人见过这个吗？这是数据块问题还是 AWS 问题？

是的，我以前见过这个。在几乎所有情况下，都是云提供商的问题，会在几个小时内自行解决。在设置新 VPC 的网络更改之后，我也看到了这一点。除非您的网络发生变化，并且如果问题仍然存在，我会使用 databricks 注册支持票。

Answer 2

这是一个非常模糊的错误消息，所以我使用 2 个很好的选项进行故障排除，大多数情况下都有效

如果由于云提供商 API 调用而关闭：您可以在 Databricks 集群的事件日志中看到实例 ID，然后使用该实例 ID，您可以登录 AWS 并转到 CloudTrail > 事件历史记录 > 更改源到“事件名称”并搜索“StopInstances”，这将为您提供推理
否则在 EC2 控制台下的实例上，您可以转到 Monitor and Troubleshoot > Get System Logs 它应该会为您提供 EC2 日志本身的所有内容

AWS Databricks 集群启动失败

问题描述投票：0回答：2

2个回答

最新问题

AWS Databricks 集群启动失败

问题描述 投票：0回答：2

2个回答

最新问题

问题描述投票：0回答：2