Web爬虫(也称为Web爬虫)是一种以有条不紊,自动化或有序方式浏览万维网的计算机程序。 Web爬虫的其他术语是蚂蚁,自动索引器,僵尸程序,Web蜘蛛,Web机器人,或者 - 尤其是在FOAF社区中 - Web scutters。
我想在我的java应用程序中使用Nutch API来从网站抓取pdf链接进行分析,如何在我的java应用程序中使用Nutch jar呢?我能举个例子吗?
我正在开发一个项目,我需要一个成熟的爬虫来完成一些工作,而我正在为此目的评估Nutch。我目前的需求相对简单:我需要一个能够......的爬虫