Autoloader Databricks 中的 FileDiscovery 用于流作业,Glob 模式不起作用

问题描述 投票:0回答:0

我有一个数据块流作业,它使用自动加载器进行文件发现,但问题是它无法根据我提供的 Glob 模式列出文件

现在我们文件的原始区域包含从 2023 年 3 月 24 日到今天的数据,但我打算只过滤掉上周的文件

"Sources": {
"csv_source": {
  "Path": "/mnt/raw-staging/n4-windows-eventlog/exp/day=20230410/materialnum=*/serialnum=*/",
  "ReadOptions": {
    "useStrictGlobber": "true",
    "header": "true",
    "sep": ";",
    "cloudFiles.partitionColumns": "day,materialnum,serialnum"
  }
}

}

在这个例子中,我使用了如下不同的 glob 模式:

 /mnt/raw-staging/n4-windows-eventlog/exp/day=202304{24..30}/materialnum=*/serialnum=*/
/mnt/raw-staging/n4-windows-eventlog/exp/day=202304{24,25,26}/materialnum=*/serialnum=*/
/mnt/raw-staging/n4-windows-eventlog/exp/day=[20230424][20230425]/materialnum=*/serialnum=*/
/mnt/raw-staging/n4-windows-eventlog/exp/day={[202306]*,[202305]*,[2023043]*,[2023042][4-9]}/materialnum=*/serialnum=*/"

它们都不起作用,只有当我提到确切的日期时它才起作用,因此自动加载器每次都必须手动配置一个单独的日期。

是否有一个正确的 glob 模式允许我从 20230424 到 20230430 获取文件列表,就像这样。

这些 glob 模式在通过 shell 脚本运行但不使用自动加载器时有效。

databricks databricks-autoloader
© www.soinside.com 2019 - 2024. All rights reserved.