如何在WEKA中更改属性类型?

问题描述 投票:0回答:2

我是WEKA的新学员。我使用Car Evaluation数据集。首先,我在Excel中正确复制了所有属性,实例和值,并保存为csv文件。我在WEKA打开了那个csv文件。我可以看到所有课程,属性等等。但是,我看不到门和人的属性。我得到“属性既不是数字也不是名义”。

这些属性获得诸如“2”,“3”和“更多”之类的值。它们采用数值和名义值。在WEKA中,他们的类型是字符串。如何更改属性类型或应用哪种方法来查看其可视化和计数?

csv machine-learning attributes weka
2个回答
0
投票

WEKA可以读取csv文件,但csv不提供有关属性类型的信息。这就是为什么WEKA鼓励您使用arff文件格式。 arff格式与csv相同,只是它有一个描述变量的标题(并允许注释和其他文档)。标题将包含类似的内容

@attribute mpg numeric
@attribute cyl numeric
@attribute doors {2,3,more}

表示mpg和cyl将具有数值,而门将是可以采用三个值“2”,“3”或“更多”中的任何一个的因子。您需要确保为门等因素指定所有可能的值。如果你知道标题应该是什么样的,你可以简单地在文本编辑器中添加标题。您可以在This WEKA siteThis University of Waikato site获取有关arff格式的更多详细信息。


0
投票

也许您应该决定使属性全部为数字,或者所有名义(也称为分类或所有字符串)。

全数字属性的好处:算法可以确定该属性与任何其他属性之间的数学关系,包括目标(或期望的输出),例如相关性,依赖性/独立性,协方差。此外,如果使用基于树的算法,节点可以定义决策规则,例如门> 3或人<2。

拥有所有名义属性的好处包括:算法可以更快地完成,因为可以使用分类值完成的事情数量有限。缺点:大多数算法不直接支持名义属性。基于树的算法在它们可以产生的决策节点类型方面受到限制,例如,门是'3'或者人不是'更多'。

警告:如果您正在处理的属性是目标或期望的输出,将其全部数字化将使weka将其解释为回归问题,而将该属性作为名义将自动解释为分类问题。

如果你有兴趣使你的属性都是数字,你可以使用excel替换所有出现的more,例如-1

如果以后你需要从所有数字到名义属性,你可以简单地qazxsw poi。或者如果您使用的是java API,可以查看qazxsw poi:

use a filter do to that
© www.soinside.com 2019 - 2024. All rights reserved.