爬取文件系统和索引的最佳方式

问题描述 投票:0回答:3

我正在开展一个项目,需要爬取超过 10TB 的数据并对其建立索引。我需要实现花费更少时间的增量爬行。

我的问题是: 哪个是所有大型组织与 java 一起使用的最适合此目的的工具?

我正在使用 Solr 和 Manifold CF 进行尝试,但 Manifold 在互联网上的文档很少。

java solr manifoldcf
3个回答
1
投票

对于使用 Java 的任何爬行活动,最好使用 开源 JSOUPSolrJ API, 清晰、整洁、简单、不稳定的文档。

Jsoup 是一个用于处理现实世界 HTML 的 Java 库。它使用最好的 DOM、CSS 和类似 jquery 的方法,提供了一个非常方便的 API 来提取和操作数据。

SolrJ 是一个 API,可让 Java 应用程序轻松与 Solr 对话。 SolrJ 隐藏了许多连接到 Solr 的细节,并允许您的应用程序通过简单的高级方法与 Solr 交互。

如需更多选项,您还可以尝试 Elasticsearch 与 java API


0
投票

我们最终使用了 Solr J (JAVA) 和 Apache Manifold CF。 尽管 Manifold CF 的文档很少甚至没有,但我们订阅了时事通讯并向开发人员提出了问题,他们很快做出了回应。 但是,我不建议任何人使用此设置,因为 Apache Manifold CF 已经过时且构建质量较差。所以最好寻找替代方案。希望这对某人有帮助。


0
投票

我最近才发现 Manifold CF,不能透露太多。 然而,假设 @shashank raj 是正确的并且应该考虑替代方案,可以考虑Apache Nutch

目前在我看来,Apache 软件基金会中有两个出于同一目的的竞争项目。共同努力推动完成一个解决方案可能是明智之举。

© www.soinside.com 2019 - 2024. All rights reserved.