我正在使用Python / Pandas创建ETL。例如,提取(从多个数据源)和转换后,我将所有数据上传到s3。然后将可以在Amazon Athena上查询数据,并使用和ODBC驱动程序,因此我可以将创建的数据库连接到我的报告工具。
例如:
如何更新现有文件并添加新数据?
并且基于上述基础架构创建数据管道的最合适方法是什么?
提前感谢。
通常来说,添加新文件要容易得多。
[如果您将Athena指向S3文件夹,并添加一个新文件(希望与其他文件具有相同的结构,那么Athena将自动读取它]
如果在S3中添加新的分区文件夹,则可能需要运行msck repair table
或alter table add partition
真的有必要附加到文件吗?