我已经设置了 AWSglue 容器,以便在我的 etl 作业中本地工作。代码可以毫无问题地运行。然而,Pycharm 代码分析告诉我,虽然 pyspark 已安装,但代码运行良好,但并未安装。
但是,pyspark 库是通过将 pythonpath 附加到容器内 pyspark 库的路径来添加的。我相信这就是问题所在。
如图所示,尽管 awsglue 库的安装也是在容器内通过附加 pythonpath 和库路径来完成的,但它仍被正确识别。对于 awsglue,我手动添加了一个包含 awsglue 库的 zip 作为 pycharm 中的外部源。我还没有为 pyspark 这样做过,而且我不知道在哪里可以找到有问题的 zip。
在哪里可以找到这些或如何在 pycharm 中启用 pyspark 的代码完成?
我认为您的 pyspark 导入路径不正确。应该只是
pyspark
而不是 pyspark.context
from pyspark import SparkContext, SparkConf