如何使用 Azure 数据工厂从 Dell ECS 提取数据?

问题描述 投票:0回答:1

我的客户在其数据中心有一个 Dell ECS,该设备用于:

  1. 以镶木地板格式存储数据
  2. 通过Databrick的Delta Lake维护聚合数据
我需要能够使用 Azure 数据工厂提取(并稍后转换)Parquet 和 Delta Lake 数据。

通过数据工厂的文件系统 (SMB) 链接服务,镶木地板文件似乎是一项简单的任务。

剩余的数据(Delta Lake)让我感到困惑(因为我不是数据工程师或应用程序架构师):我应该使用哪个数据工厂功能来提取它?

到目前为止,我尝试创建 Spark 链接服务均未成功,但测试连接失败。我不确定应该针对其众多端口中的哪一个。

注意:自托管集成运行时已就位并可运行。

我正在寻找一些关于从哪里开始的建议或建议。

apache-spark azure-data-factory delta-lake
1个回答
0
投票
如果您的 Delta 表位于 ADLS gen2 或 blob 存储中,您可以使用 ADF 数据流内联数据集

Delta

 来复制或转换这些表。

创建数据流,并在源中选择

Inline 数据集,然后从下拉列表中单击 Delta 类型。提供ADLS或Blob存储类型链接服务。

enter image description here

在源选项中,选择您的增量表。然后,您可以根据您的要求使用转换。同样在接收器中,选择内联数据集并通过提供 ADLS 或 Blob 链接服务来使用

Delta 类型。

如果您的Delta表在本地,您可以尝试将它们复制到ADLS或Blob以使用数据流的方法(尚未测试)。创建文件系统链接服务的二进制数据集并选择增量表文件夹。另外,创建另一个 ADLS 类型的二进制数据集。在文件夹名称中给出增量表名称。

enter image description here

将这两个数据集作为复制活动的源和接收器。

enter image description here

现在,表将被复制到 ADLS,然后您可以使用 ADF 数据流或按照上面提到的方式处理这些表。

© www.soinside.com 2019 - 2024. All rights reserved.