Athena 中读取的 Delta 表

问题描述 投票:0回答:0

我在 Athena 中有一个分区表。该表每 5 分钟提取一次数据。这让我每天在一个分区中摄取大约 288 个文件。在

Day + 1
上,我对
coalesce(1)
分区中的所有文件运行一个过程。所以在一个分区中我有 289 个文件。我的疑惑是:

当我对 Athena 按分区过滤运行查询时,Athena 从 Delta Log 读取元数据并仅指向合并的 1 个文件?或者...当我运行按分区筛选的查询时,Athena 会扫描分区上的所有文件吗?示例查询:
    Day
  • 如果 Athena 扫描分区中的所有文件(产生昂贵的成本)我如何在运行
  • SELECT * FROM table WHERE year = 2023 AND month = 2 AND day = 27
  • 时使用
    vacuum
    删除288个文件?
    
    
  • 我在 PySpark 上做所有事情。

amazon-web-services databricks amazon-athena delta-lake
© www.soinside.com 2019 - 2024. All rights reserved.