由于AWS Glue ETL可以是python脚本,因此可以使用它来使用数据库接口执行SQL查询,并且可以将数据从Amazon S3加载到DynamicFrame中。我试图了解何时使用Amazon Redshift频谱查询S3数据是有利的。
AWS Glue用于收集元数据(爬网)和ETL。它不适用于报告或分析。它可以应用高度复杂的转换(非常适合复杂的ETL要求)。
Redshift Spectrum主要用于根据存储在S3中的数据生成报告和分析,通常与存储在Redshift上的数据相结合。但是CAN也可以用于简单的ETL。如果你只需要简单的ETL,那么设置和使用比Glue更简单。
还有一个你没有提到的选项,就是amazon Athena,这是一个直接针对S3数据运行查询的好工具。它类似于Redshift Spectrum,但通常更快,更便宜,具体取决于您的使用情况。它无法将S3数据与Redshift数据相结合。