我有一个S3存储桶,日常文件被丢弃。 AWS抓取工具从此位置抓取数据。在我的粘贴作业运行的第一天,它会获取由AWS爬虫创建的表中存在的所有数据。例如,在第一天就有三个文件存在。(即file1。在粘贴作业执行的第一天,txt,file2.txt,file3.txt和粘合作业处理这些文件。在第二天,另外两个文件到达S3位置。现在在S3位置,这些是存在的文件。(即file1 .txt,file2.txt,file3.txt,file4.txt,file5.txt)。我能以某种方式设计我的AWS爬虫,以便在作业执行的第二天它只读取两个文件(file4.txt,file5) .txt)?或者我怎样才能编写AWS胶水作业来识别这些增量文件?
您需要为胶水启用AWS作业书签,它将能够保持已处理数据的状态。您可以参考下面的链接,了解如何操作。