其数据挖掘工具来使用?

问题描述 投票:3回答:4

有人可以解释我的最知名的数据挖掘开源工具的主要优点和缺点?

无论我读了RapidMiner,Weka的,橙,KNIME都是最佳的。 look at this blog post

有人可以做一个小项目列表快速的技术比较。

我需要有以下几种:

  • 它应该支持分类算法(朴素贝叶斯,SVM,C4.5,KNN)。
  • 它应该很容易在Java中实现。
  • 它应该有理解的文档。
  • 它应该有参考生产项目或用例中工作。
  • 一些额外的基准进行比较,如果可能的。

谢谢!

comparison weka data-mining rapidminer
4个回答
7
投票

我想首先说,有亲的利弊为他们每个人的名单上,但是我建议你的列表秧鸡,从我个人的经验这是令人难以置信的简单使用WEKA jar文件在您自己的Java应用程序中实现,并有其自身包含的数据挖掘工具。

快速矿工似乎是一个商业解决方案提供了一个端到端的解决方案。但是快速矿工的解决方案的外部实现的例子最显着的数量通常是在Python和R脚本不是Java。

橙色提供,似乎是在人主要是针对有可能不太需要自定义实现到自己的软件,但与用户itneraction,它用Python编写的源可用一个更容易的时间工具,用户插件的支持。

Knime是另一个商业平台,提供端到端的数据挖掘和分析提供所需的所有工具解决方案,这其中有在互联网的各种评价不错,但我还没有使用就足够了劝你或任何人在亲的还是它的利弊。

看到这里knime vs weka

Best data mining tools

正如我所说秧鸡是我个人最喜欢的软件开发人员,但我肯定其他人有不同的原因和为什么选择了另一种观点。希望你能找到适合您的解决方案。

同时根据您的要求秧鸡支持以下功能:

Naivebayes

SVM

C4.5

KNN


2
投票

我曾尝试橙色和Weka的用15K记录数据库,发现问题与Weka中的内存管理,它需要比16GB的RAM更同时橙色可能已经管理的数据库,而无需使用太多。一旦达到了Weka的最大内存量,它崩溃,即使你在ini文件中设置更多的内存,告诉Java虚拟机中使用较多。


1
投票

我最近evaluated many open source projects,比较和与问候决策树机器学习算法对比它们。 WEKA和KNIME被纳入该评价。我浑身算法,UX,准确性和模型检验的差异。你可能会选择一个或另一个取决于你最看重哪些功能。


0
投票

我曾与RapidMiner积极的经验:

  • 大集的机器学习算法
  • 机器学习工具 - 功能选择,参数网格搜索,数据分割,交叉验证,指标
  • 一大组的数据处理算法 - 输入,变换,输出
  • 适用于许多领域 - 金融,网页抓取和刮,NLP,图片(很基本的)
  • 可扩展的 - 一个可以发送和接收数据的其它技术:R,蟒,常规,外壳
  • 便携 - 可以运行一个Java进程
  • 开发者友好的(在一定程度上,可以使用一些改进) - 日志记录,调试,断点,宏

我本来希望看到在用户体验方面类似RapidMiner,但基于Python的技术底层引擎:大熊猫,scikit学习,spacy等。最好的东西,将允许从GUI来回移动代码。

© www.soinside.com 2019 - 2024. All rights reserved.