目标是创建一个计算机生成的新闻网站,以汇总来自世界各地不同新闻来源的头条新闻:
看一下质心表结果,我想了解以下内容:
我用K = 5我正在使用TF-IDF
请解释这些数字是什么意思?当一个属性在多个群集中为零时,这意味着什么?当我按降序对每个聚类对质心表进行排序时,我发现一些单词或属性在该聚类中具有较高的值,而在其他聚类中为零。这是否意味着这些单词在该群集中或多或少地频繁出现?如何讨论聚类模型所有集群都有意义,为什么?
您认为k = 5是此数据集的不错选择吗?还是我需要选择3个?如何分类?
我相信K = 5表示您正在研究当前数据集的群集数。在此基础上,将在数据周围放置5个质心。
这些数字是群集的平均tf-idf。因此,0表示该单词不在聚类中,而值最高的单词是该聚类中最具特征的单词。