使用 Python 的 ETL

问题描述 投票:0回答:3

我正在研究数据仓库并寻找使用 Python 的 ETL 解决方案。 我曾将 SnapLogic 作为 ETL 来玩过,但我想知道是否还有其他解决方案。

这个数据仓库才刚刚起步。我还没有带任何数据过来。我要加载的初始数据子集很容易超过 100 gig。

python data-warehouse etl
3个回答
25
投票

是的。只需使用 DB-API 接口编写 Python 到您的数据库。

大多数 ETL 程序都提供花哨的“高级语言”或拖放式 GUI,但没有多大帮助。

Python 同样富有表现力,也同样易于使用。

避免混淆。只需使用普通的 Python。

我们每天都这样做,我们对结果非常非常满意。它简单、清晰且有效。


1
投票

您可以使用

pyodbc
python 提供的库从各种数据库源中提取数据。而不是使用
pandas
数据框来根据组织需要操作和清理数据。而不是
pyodbc
将其加载到您的数据仓库。


0
投票

你们可能都想看看Zed湖。它允许您将各种数据格式加载到数据“池”中。加载后,您可以使用 Zed 语言将其转换为您需要的任何内容。我发现 Zed 语言比尝试使用 SQL 进行 ETL 更容易。它也可以扩展。

© www.soinside.com 2019 - 2024. All rights reserved.