升级到 Pyspark==3.5.1 后出现太多“授权提交者”错误

问题描述 投票:0回答:1

问题

我最近升级了我的应用程序以在 Spark3.5.1+YARN3.3.6 上运行,并观察到频繁出现“授权提交者”失败。应用程序运行 PySpark,我观察到错误总是发生在输出阶段(写入 S3 时)。

有人在升级到最新版本的 Spark 后有过类似的经历吗?我怀疑它与此更改有关,但不完全确定。

完整的堆栈跟踪如下所示:

Job aborted due to stage failure: Authorized committer (attemptNumber=0, stage=0, partition=11)
failed; but task commit success, data duplication may happen.
reason=ExecutorLostFailure(2,false,Some(Container container_1715218448129_414335_01_000005
on host: my-yarn-nm-server-1.com was preempted.))

我尝试了什么?

我启用了魔法提交器,希望它更可靠、更快速,但我仍然看到这个失败。任何解决此问题的线索将不胜感激。

apache-spark amazon-s3 hadoop pyspark
1个回答
0
投票

AWS EMR 也有同样的问题

检查这个

https://repost.aws/questions/QUmVnZdR3KQ-60ugXxXLBPIg/emrfs-write-errors

添加分类集群为我解决了这个问题

{
   "Classification": "core-site",
   "Properties": {
      "fs.s3.multipart.th.fraction.parts.complete": "0.99"
   }
}
© www.soinside.com 2019 - 2024. All rights reserved.