我正在学习聚类,并且在尝试查找包含数据的数据库时遇到了一些问题 标记工作,这对我来说是一个限制,因为我发现非常有趣的未标记数据集。我已经阅读了各种无监督聚类技术,并且想要实现分层聚类。
我将数据加载到 pandas DataFrame 中,标准化数据并应用层次聚类。然后我可视化了树状图,但我不确定如何解释结果或者我是否使用了正确的参数。
如果您刚刚学习聚类,您应该从一些内置数据集开始,例如此处找到的数据集。它们已经为您贴上了标签。在不知道您的数据集、代码或树形图是什么样子的情况下,我不确定如何提供帮助,但我绝对建议您从层次聚类的文档开始。听起来您可能会在深入研究未标记的数据集之前通过一些示例来受益。 这里是一个无监督降维的层次聚类的例子。 这里是生成树状图的示例,这里是有关分层聚类的维基百科页面,其中更详细地介绍了树状图如何工作背后的理论。它应该可以帮助您更轻松地阅读树状图。
一旦您对建模技术和可视化有了深入的了解,如果您发现一些您感兴趣的数据集仍然提出了一个引人注目的研究问题,您可能会选择对其进行标记。
祝你好运!