Spark中是否有有效内存管理的定义标准
如果我最终创建了几个DataFrame或RDD,然后通过连接和聚合继续减少数据,该怎么办?
在会话或作业完成之前,这些DataFrame或RDD是否仍将保留资源?
不,那里没有。 Spark中主要实体的生命周期是RDD,通过其沿袭来定义。当你的工作调用一个动作时,整个DAG将开始执行。如果作业成功执行,Spark将释放所有保留的资源,否则将尝试重新执行失败的任务并根据其沿袭重建丢失的RDD。
请检查以下资源以熟悉这些概念:
What is the difference between RDD Lineage Graph and Directed Acyclic Graph (DAG) in Spark?