我正在做一个 Python 项目来对某些数据进行聚类,scikit-Learn 库和 matplotlib 用于这些任务。
数据大约有9个特征,所以K-means只能用3-d到2维的数据处理。所以这个问题背后的思考过程是我使用 SVD 来降低 k-means 聚类的维度。
但是我很担心:
关于结果的完整性(因为我们使用的数据来自少数用户),用户数据本身是中小型的,每个用户大约 3000 个原子(项目)。
如果计算将成为一个问题,添加更多用户?
理想的数据原子量是多少?
最后,这是处理多维数据的最佳方式吗?