我目前正在数据块中设置数据管道。情况如下:
传入的数据以 json 文件的形式出现。数据正在异步获取到文件存储。如果一天多次收到数据,则将其放入相同的 json 文件中。
管道每天触发一次。据我了解,如果在收集一天的所有数据之前执行管道,则文件已标记为已处理,即使在执行管道后有新数据传入,也不会重新评估。导致这种情况,即增量表缺少此数据。
有什么办法可以解决这个问题吗?
cloudFiles.allowOverwrites
也许能帮到你。根据文档:
是否允许输入目录文件更改覆盖现有数据。在 Databricks Runtime 7.6 及更高版本中可用。
但是您需要在数据处理管道中处理重复项。