我必须通过使用 AIC 和 BIC 评分方法来确定 k 以确定 Mall_Customers.csv 中的组有 2 个变量,即支出分数 (1-100) 和年收入 (k$)
我想要一个理论解释为什么选择那个K以及在绘制图形来识别它时寻找的原理。
这不是 Python 问题,而是 k 均值聚类的普遍挑战。最简单的方法是尝试几个任意的 k 值并查看结果是什么。这不是寻找正确 k 的确定性方法。
一些考验是不可避免的。但随后你必须决定什么是好的结果,什么不是。这个想法是找到针对给定 k 值找到的聚类质量的度量。
计算集群质量的一些常见措施是:
因此,您必须提出一些 k 的建议,进行聚类并确定找到的聚类的质量。然后,决定要使用哪个 k 值。