我在 EMR 集群 (6.14) 上使用 Apache Spark Structured Streaming (3.1.2)。 Spark 结构化流将数据从 Apache Kafka 流式传输到 Delta Lake 表。当我打开 Spark UI 时,我看到以下图片。许多查询和阶段都处于活动状态,但如果我在阶段中打开有关任务的详细信息,则所有任务都会成功。查询已成功完成,但 Spark UI 显示其处于活动状态。有人面临同样的问题吗?
我希望所有查询都应该完成,因为新数据的到来没有任何问题。
您需要提供更多日志 点击spark ui上的stderror和stdout,它可能会显示这里的问题是什么。 这可能是防火墙问题或文件系统或某些与基础设施相关的问题。