我有一个包含 2 列的数据框。第一列有气象站名称,另一列有相应的索引。我可以进行 K 均值聚类分析,以便对具有相似索引值的站点进行分组吗?
我想采用这种方法,因为地图上车站之间的聚类可视化看起来相当不错。
我的数据框看起来像这样,
Station Index
A 6.3
B 6.8
C 7.2
D 5.6
E 6.1
.
.
.
我知道聚类是对多元数据进行分组的合适方法。我只是想知道这种方法是否也只适用于一个变量(例如索引)?
是的,可以,例如选择 3 个集群
cbind(df, cluster = kmeans(df$Index, 3)$cluster)
Station Index cluster
1 A 6.3 3
2 B 6.8 1
3 C 7.2 1
4 D 5.6 2
5 E 6.1 3
df <- structure(list(Station = c("A", "B", "C", "D", "E"), Index = c(6.3,
6.8, 7.2, 5.6, 6.1)), class = "data.frame", row.names = c(NA,
-5L))