我正在使用 FSCrawler 2.10 抓取数百个 PDF 文件,并使用 Tessaect OCR 从扫描的文档/图像中提取文本。
它可以工作,成功配置了所有内容,但是我正在爬行的文件夹在某些时候变得不可用(在服务器上变得不可用) - 这种情况发生在工作中,爬网程序无法继续,因为它不再找到该文件夹。
一天后,我想恢复该过程,但它认为所有文件都已扫描。我查看了日志,注意到如果上次修改日期(文件日期)早于上次扫描日期,fscrawler 不会扫描文件 - 即使文档没有实际上扫描过。
--重新启动选项确实可以从头开始重新索引所有内容 - 但我不想再次扫描数百个文档几个小时(此外,在一天结束时会出现同样的问题),我想继续我离开的地方(扫描了 220/600 个文档,但爬虫拒绝继续,因为它认为由于日期而将它们全部扫描)。
我可以强制继续吗?我能否以某种方式使爬网程序与 Elasticsearch 索引同步,而不是上次修改/上次扫描日期来确定扫描哪些文件?
谢谢您的帮助!
恐怕这是不可能的,因为 FSCrawler 已经建成了。 您拥有的解决方法之一是运行多个 fscrawler 实例。
假设根目录中有 5 个目录,您可以开始爬行
dir1
然后 dir2
,...
如果其中一个目录失败,您将“只需”再次抓取该目录。
但遗憾的是没有,对于 FSCrawler 迄今为止爬行的内容,还没有检查点。这肯定会是一个很大的增强。
我的目标是在 2025 年之前发布稳定的 2.10 版本。我不确定我是否能够在此之前添加这样的机制。