我找不到有关如何实现该问题标题中内容的信息。 假设我有来自组织中不同部门的不同 SQL 数据库,我想将它们全部迁移到我们的数据湖存储桶中。我想使用 AWS DMS 连接到 A、B、C 数据库并将其完全加载/CDC 到数据湖存储桶(即 S3 目标)中。
每个数据库大多数时候都拥有
public
模式下的所有表。那么在 S3 中,我如何识别哪些文件来自源数据库 A、源数据库 B 和源数据库 C。是否可以包含任务标识符作为从源发送到目标的数据的元数据?
文档提到
Multiple tasks that replicate data from the same source table to the same target S3 endpoint bucket result in those tasks writing to the same file. We recommend that you specify different target endpoints (buckets) if your data source is from the same table.
,但这不是我的情况,因为我不是将相同的源复制到同一目标,而是将多个源复制到同一目标。
当DMS任务的端点是S3时,您可以指定bucket_folder、bucket_name以及cdc_path用于持续复制。只需为每个源数据库目标端点创建一个端点,并根据源数据库命名存储桶属性即可。