rapidminer 可以从 URL 列表中提取 xpath，而不是先保存 HTML 页面吗？

Question

我最近发现了RapidMiner，我对它的功能感到非常兴奋。但是我仍然不确定该程序是否可以帮助我满足我的特定需求。我希望该程序从我用另一个程序生成的 URL 列表中抓取 xpath 匹配项。（它比 RapidMiner 中的“爬网”操作符有更多选项）

我已经看过 Neil Mcguigan 的以下教程：http://vancouverdata.blogspot.com/2011/04/web-scraping-rapidminer-xpath-web.html。但我尝试抓取的网站有数千个页面，我不想将它们全部存储在我的电脑上。而且网络爬虫缺乏关键功能，因此我无法将其用于我的目的。有没有办法让它读取 URL，并从每个 URL 中抓取 xpath？

我还研究了其他从页面中提取 html 的工具，但由于我不是程序员，我一直无法弄清楚它们是如何工作的（甚至无法安装）。另一方面，Rapidminer 很容易安装，操作员的描述很有意义，但我无法以正确的顺序连接它们。

我需要一些投入来保持动力。我想知道我可以使用什么运算符来代替“从文件处理文档”。我查看了“处理来自网络的文档”，但它没有输入，并且仍然需要爬网。非常感谢任何帮助。

期待您的回复。

Answer 1

使用 RapidMiner 进行网页抓取而不在内部保存 html 页面是一个两步过程：

第 1 步 按照 Neil McGuigan 的 http://vancouverdata.blogspot.com/2011/04/rapidminer-web-crawling-rapid-miner-web.html 观看视频，但有以下区别：

使用处理来自 Web 的文档，而不是抓取 Web 操作符操作员。不会有指定输出的选项目录，因为结果将被加载到ExampleSet中。

ExampleSet 将包含与爬行规则匹配的链接。

Process Documents from Web main

第 2 步 按照 http://vancouverdata.blogspot.com/2011/04/web-scraping-rapidminer-xpath-web.html 上的视频进行操作，但仅从 7:40 开始，有以下区别：

将提取信息子流程放入之前创建的从Web处理文档中。

ExampleSet 将包含与 XPath 查询匹配的链接和属性。

Extract Information sub

Answer 2

我和你有同样的问题，也许来自 RapidMiner 论坛的这些帖子会对你有所帮助： http://rapid-i.com/rapidforum/index.php/topic,2753.0.html 和 http://rapid-i.com/rapidforum/index.php?topic=3851.0.html

再见；）

rapidminer 可以从 URL 列表中提取 xpath，而不是先保存 HTML 页面吗？

问题描述投票：0回答：2

2个回答

最新问题

rapidminer 可以从 URL 列表中提取 xpath，而不是先保存 HTML 页面吗？

问题描述 投票：0回答：2

2个回答

最新问题

问题描述投票：0回答：2