我有一个 Spark 设置,其中存在包含原始 Parquet 文件的分区,并且查询正在这些分区上主动运行。 我正在运行后台作业来优化这些 Parquet 文件以获得更好的压缩效果,其中涉及更改 Parquet 对象布局。 如何确保 Parquet 文件覆盖是原子的并且不会失败或导致 Spark 查询中的数据完整性问题? 可能的解决方案有哪些?
由于遗留问题,我们无法使用数据湖屋。
这是一个悬而未决的问题,没有有关用例的更多细节,但我可以给你一些想法: