我正在使用google dataproc集群运行spark作业,脚本在python中。
[只有一个脚本时(例如,test.py),我可以使用以下命令提交作业:
gcloud dataproc作业提交pyspark --cluster analysis ./test.py
但是现在test.py从我自己编写的其他脚本中导入模块,如何在命令中指定依赖项?
您可以使用--py-files中提到的here选项。
--py-files