我们计划使用AWS EMR集群来处理json和parquet文件。我有一个基本问题,在 AWS EMR 集群中提交 Spark 作业时,我们是否真的需要 aws 数据目录来处理存储在 S3 存储桶中的 json 和 parquet 文件?使用 AWS EMR 时使用 AWSglue 数据目录有什么优势?
在数据仓库或数据湖中,Glue 数据目录提供了创建和管理元数据的方法。
在数据仓库和数据湖中,它是有效数据管理的支柱。它提供了对系统内存储的数据的宝贵见解,并增强了数据理解、治理、集成和可访问性。