将大约 50GB 的 Parquet 数据加载到 Redshift 需要无限期的加载时间

问题描述 投票:0回答:1

我正在加载大约 50 GB 使用 Glue Etl 作业将 Parquet 数据加载到 Dataframe 中,然后尝试加载到 Redshift 表中,这需要 6-7 小时,甚至还没有完成。

`datasink=glueContext.write_dynamic_frame.from_jdbc_conf(frame=, Catalog_connection =“redshift_connection”, 连接选项={ “预反应”:pre_actions, “dbtable”:目标表, “数据库”:“”, }, redshift_tmp_dir=args["TempDir"], conversion_ctx="数据接收器", )

有什么需要遵循的绩效改进技巧吗?

尝试对数据进行分区,并对资源配置进行重大更改。使用 G2.x 和 16 个工作人员

amazon-web-services amazon-redshift aws-glue amazon-redshift-spectrum
1个回答
0
投票

您是否尝试过手动运行复制语句来提取数据?听起来您设置的作业正在尝试将数据从 s3 提取到像 ec2 中,将其处理成数据帧,然后将其发送到 redshift,甚至可能作为插入语句。 数据已经在 s3 上,您应该能够在 redshift 中运行单个复制命令来摄取它。此时您不需要粘合工作,当您必须首先转换数据或移动数据时,您需要这些工作。

© www.soinside.com 2019 - 2024. All rights reserved.