我正在使用 Spark 2.4.5、Scala 2.11
我在 S3 上设置了一个增量表。在我的应用程序的每次运行中,都会生成并附加一个新的数据分区。
df
.write
.format("delta")
.mode("append")
.save(deltaPath)
一旦附加分区,它也会:
val deltaTable = DeltaTable.forPath(deltaPath)
deltaTable.generate("symlink_format_manifest")
这个
symlink_format_manifest
大约需要20分钟,而总工作时间是28分钟。我检查了_symlink_format_manifest/
下生成的文件,似乎所有旧分区每次都会更新。通过检查旧分区的清单文件的 last modified
确认了这一点。
我需要更改什么才能使
generate("symlink_format_manifest")
仅用于注册新分区而不是每次都重新更新所有以前的分区?