AWS Glue Bookmark生成重复项

问题描述 投票:0回答:1

我正在向Glue Job提交一个Python脚本(实际上是pyspark)来处理镶木地板文件并从该数据源中提取一些分析。

这些镶木地板文件存放在S3文件夹中,并随着新数据不断增加。我对AWS Glue提供的书签逻辑感到满意,因为它有很大帮助:基本上允许我们只处理新数据而无需重新处理已处理的数据。

不幸的是,在这种情况下,我注意到每次生成重复项并且看起来像AWS Glue书签根本不起作用。这种意外行为的原因是什么?

amazon-web-services parquet aws-glue
1个回答
1
投票

来自https://docs.aws.amazon.com/glue/latest/dg/monitor-continuations.html

目前不支持Apache Parquet和ORC格式。

© www.soinside.com 2019 - 2024. All rights reserved.