如何将原始供应商数据从 Azure 数据工厂 (ADF) 提取到 Databricks 中的 Delta Live 表中,特别针对每天添加的新文件?我可以创建一个非流式 Delta Live Table 来处理这种批量式的摄取过程吗?使用 Cloud Files 来高效地仅加载新添加的文件是否可行?
我的问题是我可以使用非流式表并使用云文件来摄取新添加的文件
在 Databricks Delta Live Table 中,您只能定义流表、物化视图和视图。
自动加载程序在新数据文件到达云存储时以增量方式高效地对其进行处理。它提供了一个名为 cloudFiles 的结构化流媒体源。给定云文件存储上的输入目录路径,cloudFiles 源会在新文件到达时自动处理它们,并且可以选择处理该目录中的现有文件。 Auto Loader 支持 Delta Live Tables 中的 Python 和 SQL。
您可以使用 Auto Loader 处理数十亿个文件以迁移或回填表。 Auto Loader 可扩展以支持每小时近乎实时地摄取数百万个文件。