我有一个数据块流作业,它使用自动加载器进行文件发现,但问题是它无法根据我提供的 Glob 模式列出文件
现在我们文件的原始区域包含从 2023 年 3 月 24 日到今天的数据,但我打算只过滤掉上周的文件
"Sources": {
"csv_source": {
"Path": "/mnt/raw-staging/n4-windows-eventlog/exp/day=20230410/materialnum=*/serialnum=*/",
"ReadOptions": {
"useStrictGlobber": "true",
"header": "true",
"sep": ";",
"cloudFiles.partitionColumns": "day,materialnum,serialnum"
}
}
}
在这个例子中,我使用了如下不同的 glob 模式:
/mnt/raw-staging/n4-windows-eventlog/exp/day=202304{24..30}/materialnum=*/serialnum=*/
/mnt/raw-staging/n4-windows-eventlog/exp/day=202304{24,25,26}/materialnum=*/serialnum=*/
/mnt/raw-staging/n4-windows-eventlog/exp/day=[20230424][20230425]/materialnum=*/serialnum=*/
/mnt/raw-staging/n4-windows-eventlog/exp/day={[202306]*,[202305]*,[2023043]*,[2023042][4-9]}/materialnum=*/serialnum=*/"
它们都不起作用,只有当我提到确切的日期时它才起作用,因此自动加载器每次都必须手动配置一个单独的日期。
是否有一个正确的 glob 模式允许我从 20230424 到 20230430 获取文件列表,就像这样。
这些 glob 模式在通过 shell 脚本运行但不使用自动加载器时有效。