我正在对客户的客户进行分类。但是,数据是流动的,集群可以每天更换。
每天运行新集群以更新用户集群很困难,因为Kmeans在标记集群方面不一致。
如果我们聚类,然后训练数据说用神经网络或XGBoost并向前移动只需预测聚类。这有意义还是做事的好方法?
是的,它确实有意义,它只是那时的常规分类任务。在进入神经网络之前,您应该为群集分配足够的数据。
另一方面,为什么不预测新点的簇而不是更新它们(你可以在sklearn's docs中看到适合和预测的单独方法,尽管它取决于你使用的技术)?请记住,神经网络只会像它的输入一样好(K-Means集群),它的预测可能与K-Means类似。
此外,NN更复杂,更难训练,也许那些不应该是你的首选。
您也可以检查模糊聚类的概念,因为数据是流动的,它可能更适合您的情况。也许autoencoders作为获取潜在变量的方法也可能有用。