S3上的ETL:如何将新数据插入到现有文件中?

问题描述 投票:0回答:1

我正在使用Python / Pandas创建ETL。例如,提取(从多个数据源)和转换后,我将所有数据上传到s3。然后将可以在Amazon Athena上查询数据,并使用和ODBC驱动程序,因此我可以将创建的数据库连接到我的报告工具。

例如:

  • 第一次执行将创建一个事实表,称为fact_X
  • 第二次执行,我只想在最后一次执行日期之后插入数据。

如何更新现有文件并添加新数据?

并且基于上述基础架构创建数据管道的最合适方法是什么?

提前感谢。

python database etl data-warehouse
1个回答
0
投票

通常来说,添加新文件要容易得多。

[如果您将Athena指向S3文件夹,并添加一个新文件(希望与其他文件具有相同的结构,那么Athena将自动读取它]

如果在S3中添加新的分区文件夹,则可能需要运行msck repair tablealter table add partition

真的有必要附加到文件吗?

© www.soinside.com 2019 - 2024. All rights reserved.