我正在使用scikit-learn库sklearn.cluster尝试K-Means及其变体的示例。 minibatch K均值聚类和在线/顺序K均值聚类有什么区别?
我在scikit库中找不到在线KMeans的实现。如果批量大小为1,则小批量K均值将充当在线K均值?
小批量k均值未收敛到局部最优。x
本质上,它使用数据的子样本重复执行k均值的一步。但是,由于这些样本的最优值可能不同,因此找不到最佳样本,而是在解决方案之间移动到不同部分。在固定次数的迭代之后停止-否则它将永远运行。如果您拥有良好的海量数据,则可能不会有太大的不同。如果您有一个困难的数据集而没有那么多数据,那么快速(不是Lloyd)的KMeans将找到更好的解决方案,并且只需进行几次迭代即可。我怀疑许多人拥有如此大的数据集,而使用minibatch是个好主意。