爬取文件系统和索引的最佳方式

Question

我正在开展一个项目，需要爬取超过 10TB 的数据并对其建立索引。我需要实现花费更少时间的增量爬行。

我的问题是：哪个是所有大型组织与 java 一起使用的最适合此目的的工具？

我正在使用 Solr 和 Manifold CF 进行尝试，但 Manifold 在互联网上的文档很少。

Answer 1

对于使用 Java 的任何爬行活动，最好使用开源 JSOUP 和 SolrJ API，清晰、整洁、简单、不稳定的文档。

Jsoup 是一个用于处理现实世界 HTML 的 Java 库。它使用最好的 DOM、CSS 和类似 jquery 的方法，提供了一个非常方便的 API 来提取和操作数据。

SolrJ 是一个 API，可让 Java 应用程序轻松与 Solr 对话。 SolrJ 隐藏了许多连接到 Solr 的细节，并允许您的应用程序通过简单的高级方法与 Solr 交互。

如需更多选项，您还可以尝试 Elasticsearch 与 java API

Answer 2

我们最终使用了 Solr J (JAVA) 和 Apache Manifold CF。尽管 Manifold CF 的文档很少甚至没有，但我们订阅了时事通讯并向开发人员提出了问题，他们很快做出了回应。但是，我不建议任何人使用此设置，因为 Apache Manifold CF 已经过时且构建质量较差。所以最好寻找替代方案。希望这对某人有帮助。

Answer 3

我最近才发现 Manifold CF，不能透露太多。然而，假设 @shashank raj 是正确的并且应该考虑替代方案，可以考虑Apache Nutch。

目前在我看来，Apache 软件基金会中有两个出于同一目的的竞争项目。共同努力推动完成一个解决方案可能是明智之举。

爬取文件系统和索引的最佳方式

问题描述投票：0回答：3

3个回答

最新问题

爬取文件系统和索引的最佳方式

问题描述 投票：0回答：3

3个回答

最新问题

问题描述投票：0回答：3