我在 Athena 中有一个分区表。该表每 5 分钟提取一次数据。这让我每天在一个分区中摄取大约 288 个文件。在
Day + 1
上,我对 coalesce(1)
分区中的所有文件运行一个过程。所以在一个分区中我有 289 个文件。我的疑惑是:
当我对 Athena 按分区过滤运行查询时,Athena 从 Delta Log 读取元数据并仅指向合并的 1 个文件?或者...当我运行按分区筛选的查询时,Athena 会扫描分区上的所有文件吗?示例查询:Day
SELECT * FROM table WHERE year = 2023 AND month = 2 AND day = 27
vacuum
删除288个文件?