FSCrawler 不继续工作

Question

我正在使用 FSCrawler 2.10 抓取数百个 PDF 文件，并使用 Tessaect OCR 从扫描的文档/图像中提取文本。

它可以工作，成功配置了所有内容，但是我正在爬行的文件夹在某些时候变得不可用（在服务器上变得不可用） - 这种情况发生在工作中，爬网程序无法继续，因为它不再找到该文件夹。

一天后，我想恢复该过程，但它认为所有文件都已扫描。我查看了日志，注意到如果上次修改日期（文件日期）早于上次扫描日期，fscrawler 不会扫描文件 - 即使文档没有实际上扫描过。

--重新启动选项确实可以从头开始重新索引所有内容 - 但我不想再次扫描数百个文档几个小时（此外，在一天结束时会出现同样的问题），我想继续我离开的地方（扫描了 220/600 个文档，但爬虫拒绝继续，因为它认为由于日期而将它们全部扫描）。

我可以强制继续吗？我能否以某种方式使爬网程序与 Elasticsearch 索引同步，而不是上次修改/上次扫描日期来确定扫描哪些文件？

谢谢您的帮助！

Answer 1

恐怕这是不可能的，因为 FSCrawler 已经建成了。您拥有的解决方法之一是运行多个 fscrawler 实例。

假设根目录中有 5 个目录，您可以开始爬行

dir1

然后

dir2

，... 如果其中一个目录失败，您将“只需”再次抓取该目录。

但遗憾的是没有，对于 FSCrawler 迄今为止爬行的内容，还没有检查点。这肯定会是一个很大的增强。

我的目标是在 2025 年之前发布稳定的 2.10 版本。我不确定我是否能够在此之前添加这样的机制。