您是否必须使用Azure数据工厂,或者您可以从多个来源将Databricks作为您的ETL工具?

问题描述 投票:0回答:2

...或者我是否需要首先使用数据工厂将数据添加到数据湖中,然后使用数据库作为ELT?

azure azure-data-factory
2个回答
1
投票

要看。

Databricks可以连接到datasources并提取数据。但是Azure数据工厂(ADF)比数据库有更多的connectors。所以这取决于你需要什么。如果使用ADF,您需要将数据放在某处(即Azure存储),以便数据桶可以将其拾取。

此外,ADF的另一个主要特征是协调数据移动或活动。 Databricks确实有Job功能来安排笔记本或JAR,但它在数据库中是有限的。如果您想安排数据存储之外的任何事情(例如,将文件丢弃到SFTP或完成时发送电子邮件或终止数据库集群等等),那么ADF就是您的选择。


0
投票

实际上,这取决于我认为的情景。如果您需要连接各种数据源,那么adf可能是更好的选择。

如果您的数据源是数据文件(以任何格式),您可以考虑使用数据库进行etl。

我通过将笔记本安装到blobstorage中的存储容器中,将databricks用作纯粹的etl工具(不带adf),从那里获取大量xml数据并将数据写入数据库中的数据帧。然后我解析数据帧的形状,然后将数据写入azure sql数据库。可以说,我并没有真正将它用于etl中的“e”,因为数据已经从真实的源系统中提取出来。

最大的优势是您可以随意解析文件。

最好的祝福。

© www.soinside.com 2019 - 2024. All rights reserved.