使胶水在作业后删除源数据

问题描述 投票:0回答:1

AWS Glue非常适合将数据从原始格式转换为所需的任何格式,并使源和目标数据集保持同步。

“有效数据已移至隔离区桶以进行手动检查。

无效数据包括:

    错误的文件格式/编码
  • 无法解析的内容
  • 不匹配的架构
  • 甚至对数据本身进行了一些健全性检查
  • “着陆区”存储桶不是数据湖的一部分,它只是传入数据的临时死点,因此,一旦将文件移动到湖中,我需要验证工作从该存储桶中删除文件, /或隔离区。

    胶水可以吗?如果数据已从源存储桶中删除,Glue最终不会在后续更新中将其从下游删除吗?

    我是否需要其他工具(例如StreamSets,NiFi或带有AWS Batch的Step Functions进行此验证步骤,并且仅在数据进入湖中时才使用Glue?

    “ )
  • bigdata etl aws-glue
    1个回答
    0
    投票
    © www.soinside.com 2019 - 2024. All rights reserved.