我正在向Glue Job提交一个Python脚本(实际上是pyspark)来处理镶木地板文件并从该数据源中提取一些分析。
这些镶木地板文件存放在S3文件夹中,并随着新数据不断增加。我对AWS Glue提供的书签逻辑感到满意,因为它有很大帮助:基本上允许我们只处理新数据而无需重新处理已处理的数据。
不幸的是,在这种情况下,我注意到每次生成重复项并且看起来像AWS Glue书签根本不起作用。这种意外行为的原因是什么?
来自https://docs.aws.amazon.com/glue/latest/dg/monitor-continuations.html
目前不支持Apache Parquet和ORC格式。