之前的 PySpark 笔记本运行没有问题。本周,它因以下错误而失败:“java.lang.RuntimeException:本机 zStandard 库不可用:此版本的 libhadoop 是在没有 zstd 支持的情况下构建的。”
数据帧写入失败。
df.write.mode("overwrite").partitionBy("year", "month").parquet(data_path)
查看处理日志后,其中 4 个作业的处理没有问题。第 5 个作业在新数据上失败。
Spark 池配置:Apache Spark 版本 3.1、Python 3.8。
我希望数据像往常一样写入存储。
升级到 Synapse Spark Pool 版本 3.4 解决了该问题。