我在 Glue 作业中使用的 PySpark 脚本导入以下行,需要在传入帧和目标 S3 之间断言架构:
from pyspark.errors.exceptions.base import PySparkAssertionError
本地一切正常,但上传到 AWS 时,Glue 抛出错误:
Error Category: IMPORT_ERROR; Failed Line Number: 9; ModuleNotFoundError: No module named 'pyspark.errors'
在这种情况下是否应该将其作为单独的
jar
文件导入?
这会很奇怪,因为我期望 Glue 中的 PySpark 在所有模块中都配备齐全。
提前致谢!
AWS Glue 4.0 使用 Spark 3.3,尚不支持 pyspark.errors:https://archive.apache.org/dist/spark/docs/3.3.0/api/python/reference/index.html
如果您确实需要最新的 Spark 版本,我建议使用 EMR Serverless