调整兰特指数 (ARI) 是比较两个集群的常用指标。不幸的是,在执行聚类分析并比较它们后,我通常会得到负 ARI。我如何解释这些负 ARI 来描述这些簇的差异?那么如果负 ARI 毫无意义,有什么关于适当措施的建议吗?
它们根本不是“毫无意义”。
负 ARI 表示一致性低于随机结果的预期。这意味着结果在某种程度上是“正交”或“互补”的。
但是这种情况不应该经常发生,除非您刻意寻找替代聚类。也许存在执行错误?
我最近有一个类似的解释问题,发现这些玩具示例很有用:
> aricode::ARI(c(1,1,2,2), c(1,1,2,2))
[1] 1
> aricode::ARI(c(1,1,2,2), c(2,2,1,1))
[1] 1
> aricode::ARI(c(1,1,2,2), c(1,2,1,2))
[1] -0.5
> aricode::ARI(c(1,1,2,1), c(1,2,1,2))
[1] 0