AWS胶水增量负载

Question

我有一个S3存储桶，日常文件被丢弃。 AWS抓取工具从此位置抓取数据。在我的粘贴作业运行的第一天，它会获取由AWS爬虫创建的表中存在的所有数据。例如，在第一天就有三个文件存在。（即file1。在粘贴作业执行的第一天，txt，file2.txt，file3.txt和粘合作业处理这些文件。在第二天，另外两个文件到达S3位置。现在在S3位置，这些是存在的文件。（即file1 .txt，file2.txt，file3.txt，file4.txt，file5.txt）。我能以某种方式设计我的AWS爬虫，以便在作业执行的第二天它只读取两个文件（file4.txt，file5） .txt）？或者我怎样才能编写AWS胶水作业来识别这些增量文件？

Answer 1

您需要为胶水启用AWS作业书签，它将能够保持已处理数据的状态。您可以参考下面的链接，了解如何操作。

aws glue job bookmark

AWS胶水增量负载

问题描述投票：2回答：1

1个回答

最新问题

AWS胶水增量负载

问题描述 投票：2回答：1

1个回答

最新问题

问题描述投票：2回答：1