迷你批处理K均值和顺序/在线KMeans之间的差异

问题描述 投票:0回答:1

我正在使用scikit-learn库sklearn.cluster尝试K-Means及其变体的示例。 minibatch K均值聚类和在线/顺序K均值聚类有什么区别?

我在scikit库中找不到在线KMeans的实现。如果批量大小为1,则小批量K均值将充当在线K均值?

cluster-analysis k-means unsupervised-learning mini-batch
1个回答
0
投票

小批量k均值未收敛到局部最优。x

本质上,它使用数据的子样本重复执行k均值的一步。但是,由于这些样本的最优值可能不同,因此找不到最佳样本,而是在解决方案之间移动到不同部分。在固定次数的迭代之后停止-否则它将永远运行。如果您拥有良好的海量数据,则可能不会有太大的不同。如果您有一个困难的数据集而没有那么多数据,那么快速(不是Lloyd)的KMeans将找到更好的解决方案,并且只需进行几次迭代即可。我怀疑许多人拥有如此大的数据集,而使用minibatch是个好主意。

© www.soinside.com 2019 - 2024. All rights reserved.