标称数据相似性相关系数的最佳方法

问题描述 投票:0回答:1

我希望有人能在这方面帮助我(请): 我想在一些文章特征(作者、类别、年份、影响因子、引文)之间进行相似性分析 我不知道如何对标称数据执行此操作,对于数值特征,我可以执行余弦相似度,但如何对标称数据执行此操作? 先谢谢大家了!

cluster-analysis cluster-computing similarity cosine-similarity nominal-data
1个回答
0
投票

虽然我不想推荐这种方法,但它似乎很受欢迎:

将您的类别编码为二进制属性。即:

A1=Car   ->  (1,0,0)
A1=Truck ->  (0,1,0)
A1=Bike  ->  (0,0,1)

然后您可以像处理文本一样继续。这实际上与将它们视为三个不同的单词相同。

它会起作用,但恕我直言,在连续数值之外没有“相关性”的概念。在文本上,它更像是一种黑客行为,而不是一种好的方法。

© www.soinside.com 2019 - 2024. All rights reserved.