我的客户在其数据中心有一个 Dell ECS,该设备用于:
我需要能够使用 Azure 数据工厂提取(并稍后转换)Parquet 和 Delta Lake 数据。通过数据工厂的文件系统 (SMB) 链接服务,镶木地板文件似乎是一项简单的任务。
剩余的数据(Delta Lake)让我感到困惑(因为我不是数据工程师或应用程序架构师):我应该使用哪个数据工厂功能来提取它?
到目前为止,我尝试创建 Spark 链接服务均未成功,但测试连接失败。我不确定应该针对其众多端口中的哪一个。
注意:自托管集成运行时已就位并可运行。
我正在寻找一些关于从哪里开始的建议或建议。
Delta
来复制或转换这些表。创建数据流,并在源中选择
Inline 数据集,然后从下拉列表中单击 Delta 类型。提供ADLS或Blob存储类型链接服务。
在源选项中,选择您的增量表。然后,您可以根据您的要求使用转换。同样在接收器中,选择内联数据集并通过提供 ADLS 或 Blob 链接服务来使用
Delta 类型。
如果您的Delta表在本地,您可以尝试将它们复制到ADLS或Blob以使用数据流的方法(尚未测试)。创建文件系统链接服务的二进制数据集并选择增量表文件夹。另外,创建另一个 ADLS 类型的二进制数据集。在文件夹名称中给出增量表名称。
将这两个数据集作为复制活动的源和接收器。
现在,表将被复制到 ADLS,然后您可以使用 ADF 数据流或按照上面提到的方式处理这些表。