我正在使用一些数据来生成一些标签,以便可以对我的数据进行排序以在有监督的学习环境中使用。我一直在生成树状图以可视化数据聚类的方式,但是当我使用KMeans创建标签时,只有几个标签显示它们在所显示的树状图的聚类中。
代码:
combined_array = pd.read_pickle('arrays.pickle')
model = KMeans(algorithm = 'auto', copy_x = True, init = 'k-means++', max_iter = 300,
n_clusters = 7, n_init = 10, n_jobs = 1, precompute_distances = 'auto',
random_state = 1, tol = 0.0001, verbose = 0)
model.fit(combined_array)
labels = model.predict(combined_array)
pd.DataFrame(labels).to_csv("arrays_labels.csv")
mergings = linkage(combined_array, method = 'ward')
dendrogram(mergings, leaf_rotation = 0, leaf_font_size = 14, show_contracted = True)
上图显示了该群集中应包含哪些文件的一部分,但是当我使用kmeans生成标签时,仅包含文件28, 33, 41, 45, 70
。那么,为什么13, 42, 67, 81
没有出现在我的标签中? KMeans
和dendrogram
是否创建不同类型的聚类?
我并没有真正将您的代码链接到您要的内容,但是可以!他们完全不同!