我目前无法在我们的数据块 AWS 环境中启动任何集群。
当我尝试启动按需集群时,它会保持“挂起”状态 20 多分钟(在相对较小的集群上,通常需要 2-3 分钟才能启动)。
同样,我所有的预定作业都失败了,因为它们的作业集群也无法启动。这是一个示例错误消息:
Run result unavailable: job failed with error message Unexpected failure while waiting for the cluster [cluster_name] to be ready. Cause Cluster [cluster_name] is unusable since the driver is unhealthy.
当我尝试调查问题时,驱动程序日志完全是空的。我尝试启动运行时为 9.1 和 10.4 的集群,但看到了同样的问题。
有人见过这个吗?这是数据块问题还是 AWS 问题?
有人见过这个吗?这是数据块问题还是 AWS 问题?
是的,我以前见过这个。在几乎所有情况下,都是云提供商的问题,会在几个小时内自行解决。在设置新 VPC 的网络更改之后,我也看到了这一点。除非您的网络发生变化,并且如果问题仍然存在,我会使用 databricks 注册支持票。
这是一个非常模糊的错误消息,所以我使用 2 个很好的选项进行故障排除,大多数情况下都有效