我正在加载大约 50 GB 使用 Glue Etl 作业将 Parquet 数据加载到 Dataframe 中,然后尝试加载到 Redshift 表中,这需要 6-7 小时,甚至还没有完成。
`datasink=glueContext.write_dynamic_frame.from_jdbc_conf(frame=
有什么需要遵循的绩效改进技巧吗?
尝试对数据进行分区,并对资源配置进行重大更改。使用 G2.x 和 16 个工作人员
您是否尝试过手动运行复制语句来提取数据?听起来您设置的作业正在尝试将数据从 s3 提取到像 ec2 中,将其处理成数据帧,然后将其发送到 redshift,甚至可能作为插入语句。 数据已经在 s3 上,您应该能够在 redshift 中运行单个复制命令来摄取它。此时您不需要粘合工作,当您必须首先转换数据或移动数据时,您需要这些工作。