AWS Databricks 集群启动失败

问题描述 投票:0回答:2

我目前无法在我们的数据块 AWS 环境中启动任何集群。

当我尝试启动按需集群时,它会保持“挂起”状态 20 多分钟(在相对较小的集群上,通常需要 2-3 分钟才能启动)。

同样,我所有的预定作业都失败了,因为它们的作业集群也无法启动。这是一个示例错误消息:

Run result unavailable: job failed with error message Unexpected failure while waiting for the cluster [cluster_name] to be ready. Cause Cluster [cluster_name] is unusable since the driver is unhealthy.

当我尝试调查问题时,驱动程序日志完全是空的。我尝试启动运行时为 9.1 和 10.4 的集群,但看到了同样的问题。

有人见过这个吗?这是数据块问题还是 AWS 问题?

databricks aws-databricks
2个回答
1
投票

有人见过这个吗?这是数据块问题还是 AWS 问题?

是的,我以前见过这个。在几乎所有情况下,都是云提供商的问题,会在几个小时内自行解决。在设置新 VPC 的网络更改之后,我也看到了这一点。除非您的网络发生变化,并且如果问题仍然存在,我会使用 databricks 注册支持票。


0
投票

这是一个非常模糊的错误消息,所以我使用 2 个很好的选项进行故障排除,大多数情况下都有效

  1. 如果由于云提供商 API 调用而关闭:您可以在 Databricks 集群的事件日志中看到实例 ID,然后使用该实例 ID,您可以登录 AWS 并转到 CloudTrail > 事件历史记录 > 更改源到“事件名称”并搜索“StopInstances”,这将为您提供推理
  2. 否则在 EC2 控制台下的实例上,您可以转到 Monitor and Troubleshoot > Get System Logs 它应该会为您提供 EC2 日志本身的所有内容
© www.soinside.com 2019 - 2024. All rights reserved.