我必须在我的数据(未标记)上应用无监督的机器学习算法。您会建议我采用哪种框架?
取决于您拥有多少数据。Numpy非常擅长聚类,因为它很简单。
Scikit已实现许多群集功能:
https://scikit-learn.org/stable/modules/clustering.html#clustering
如果您有大量数据和许多群集,请考虑使用tensorflow GPU或numba来加快训练速度。例如,我必须将300GB数据分为大约1000000个组。使用tensorflow代替numpy的速度快了大约10倍,但是tensorflow很难编码。
tensorflow和pytorch都比较好。从个人经验来看,我可以说在部署应用程序时我更喜欢张量流,而对于研究和快速原型制作,Pytorch框架是首选。但是考虑到您只有300个观察值,简单的scikit库可以完成这项工作。 Agglomerative clustering可以在无监督的学习任务中做得体面。