我必须使用apache nutch设计基于Java / Java EE的搜索引擎。我搜索了互联网,我发现很多关于安装apache nutch的文章但是找不到任何文章/教程来处理java程序来访问或控制apache nutch进行爬行。
Apache Nutch只会帮助您抓取数据,但您需要将它找到的内容索引到搜索服务器中。这就是Apache Solr的用武之地。然后,您可以使用SolrJ编写Java应用程序以与Solr交互。
请参阅this thread了解Nutch和Solr最适合的版本。
Nutch将成为你爬行的后端。然后你将使用solr索引,然后你的前端将搜索这个solr索引。在这里查看此链接http://www.building-blocks.com/thinking/building-a-search-engine-with-nutch-and-solr-in-10-minutes