我们可以使用以下代码在PySpark中设置检查点目录路径:
spark.sparkContext.setCheckpointDir('/checkpoints')
SparkContext.getCheckpointDir()
仅在PySpark 3.1.0版本中引入,如何使用旧版本PySpark(如v2.4.3)获取检查点目录路径?
SparkContext.getCheckpointDir()
仅在 PySpark 版本 3.1.0 中实现,但幸运的是它已经在 v2.4.3
的底层 Scala 代码库中实现。你可以看到here.
您可以使用
_jsc
属性访问底层sparksession(JavaSparkContext)。以下在版本 2.4.5
的 pyspark REPL 中工作:
>>> spark.sparkContext.setCheckpointDir('/checkpoints')
>>> sc._jsc.sc().getCheckpointDir().get()
'file:/checkpoints/1829fbb4-0b7b-44c5-b275-50276d063565'
对于旧版本,您可以从 conf 中获取该属性:
checkpoint_dir = sc.getConf().get("spark.checkpoint.dir")