将来自 amazon s3 的大型 CSV 处理到 postgres 数据库表中

Question

我需要处理从 AWS S3 到 Postgres DB (AWS RDS) 的大型 CSV。我是 AWS 新手，需要一些有关架构的建议。以下是要求。

一些具体问题：

谢谢你。

Answer 1

您可以使用 aws_s3 扩展将数据从 Amazon S3 导入到 RDS for PostgreSQL 数据库实例 - Amazon Relational Database Service

。它使用 Postgres COPY 命令从 S3 加载 CSV 样式的数据。

最困难的部分是触发它并知道S3中的哪些对象需要处理。

我遇到过一种情况，我们每天都将具有“相同文件名”的文件转储到 S3 中，再加上包含数据转储时间的附加文件。我们使用

的文件，那么情况会更加困难，因为 psql 存储过程无法列出 S3 中的对象。相反，您可以

使用 Amazon S3 触发器来调用 AWS Lambda 函数，该函数可以： 连接到 Postgres 并直接运行导入命令，或者

来触发导入过程。我还没有尝试过，但这里有一篇文章：

将 AWS Glue 与 Postgresql 结合使用的实用方法 - DEV 社区