Databricks 处理的文件

问题描述 投票:0回答:1

我目前正在数据块中设置数据管道。情况如下:

传入的数据以 json 文件的形式出现。数据正在异步获取到文件存储。如果一天多次收到数据,则将其放入相同的 json 文件中。

管道每天触发一次。据我了解,如果在收集一天的所有数据之前执行管道,则文件已标记为已处理,即使在执行管道后有新数据传入,也不会重新评估。导致这种情况,即增量表缺少此数据。

有什么办法可以解决这个问题吗?

databricks pipeline databricks-autoloader
1个回答
0
投票

cloudFiles.allowOverwrites
也许能帮到你。根据文档

是否允许输入目录文件更改覆盖现有数据。在 Databricks Runtime 7.6 及更高版本中可用。

但是您需要在数据处理管道中处理重复项。

© www.soinside.com 2019 - 2024. All rights reserved.