我想知道是否所有启发式方法,但具体地说,如果组没有高度定义,UPGMA或亲和传播可能在重复分析中提供不同的结果。
我的意思是,由于启发式方法是无法确保最优的实用方法,因此在每次重复分析中,如果没有明确的最优,我们可以获得不同的解决方案,是不是?
因此,我想确认所有启发式方法都可能发生这种情况。
提前致谢
什么是启发式方法?
我不会称UPGMA为启发式。它是聚类相似性的定义,因为它是一个定义,它是精确的。但是使用启发式算法可能很难找到这个问题的全局最优。就像Lloyd的算法可能找不到k-means的全局最优。
单链接是唯一可以保证找到最佳值的HAC方法,因为它归结为找到最小生成树。然而,MST可能没有唯一定义(然后相同数据集的两个排列将不会给出相同的结果)。并且对数据集的微小改变(或者,例如,移除或添加点)可以产生完全不同的解决方案。所以我宁愿谈论稳定性或稳健性。我认为我们不能将任何聚类算法称为“健壮”统计数据。可能最强大的是k-中位数,因为已知中位数比平均值更稳健。