我最近发现了RapidMiner,我对它的功能感到非常兴奋。但是我仍然不确定该程序是否可以帮助我满足我的特定需求。我希望该程序从我用另一个程序生成的 URL 列表中抓取 xpath 匹配项。 (它比 RapidMiner 中的“爬网”操作符有更多选项)
我已经看过 Neil Mcguigan 的以下教程:http://vancouverdata.blogspot.com/2011/04/web-scraping-rapidminer-xpath-web.html。但我尝试抓取的网站有数千个页面,我不想将它们全部存储在我的电脑上。而且网络爬虫缺乏关键功能,因此我无法将其用于我的目的。有没有办法让它读取 URL,并从每个 URL 中抓取 xpath?
我还研究了其他从页面中提取 html 的工具,但由于我不是程序员,我一直无法弄清楚它们是如何工作的(甚至无法安装)。另一方面,Rapidminer 很容易安装,操作员的描述很有意义,但我无法以正确的顺序连接它们。
我需要一些投入来保持动力。我想知道我可以使用什么运算符来代替“从文件处理文档”。我查看了“处理来自网络的文档”,但它没有输入,并且仍然需要爬网。 非常感谢任何帮助。
期待您的回复。
使用 RapidMiner 进行网页抓取而不在内部保存 html 页面是一个两步过程:
第 1 步 按照 Neil McGuigan 的 http://vancouverdata.blogspot.com/2011/04/rapidminer-web-crawling-rapid-miner-web.html 观看视频,但有以下区别:
ExampleSet 将包含与爬行规则匹配的链接。
第 2 步 按照 http://vancouverdata.blogspot.com/2011/04/web-scraping-rapidminer-xpath-web.html 上的视频进行操作,但仅从 7:40 开始,有以下区别:
ExampleSet 将包含与 XPath 查询匹配的链接和属性。
我和你有同样的问题,也许来自 RapidMiner 论坛的这些帖子会对你有所帮助: http://rapid-i.com/rapidforum/index.php/topic,2753.0.html 和 http://rapid-i.com/rapidforum/index.php?topic=3851.0.html
再见;)