将大约 50GB 的 Parquet 数据加载到 Redshift 需要无限期的加载时间

Question

我正在加载大约 50 GB 使用 Glue Etl 作业将 Parquet 数据加载到 Dataframe 中，然后尝试加载到 Redshift 表中，这需要 6-7 小时，甚至还没有完成。

`datasink=glueContext.write_dynamic_frame.from_jdbc_conf(frame=, Catalog_connection =“redshift_connection”，连接选项={ “预反应”：pre_actions， “dbtable”：目标表， “数据库”：“”， }, redshift_tmp_dir=args["TempDir"], conversion_ctx="数据接收器", )

有什么需要遵循的绩效改进技巧吗？

尝试对数据进行分区，并对资源配置进行重大更改。使用 G2.x 和 16 个工作人员

Answer 1

您是否尝试过手动运行复制语句来提取数据？听起来您设置的作业正在尝试将数据从 s3 提取到像 ec2 中，将其处理成数据帧，然后将其发送到 redshift，甚至可能作为插入语句。数据已经在 s3 上，您应该能够在 redshift 中运行单个复制命令来摄取它。此时您不需要粘合工作，当您必须首先转换数据或移动数据时，您需要这些工作。

将大约 50GB 的 Parquet 数据加载到 Redshift 需要无限期的加载时间

问题描述投票：0回答：1

1个回答

最新问题

将大约 50GB 的 Parquet 数据加载到 Redshift 需要无限期的加载时间

问题描述 投票：0回答：1

1个回答

最新问题

问题描述投票：0回答：1