对大多数一起出现在数据框中的标签进行聚类(在多标签分类问题中)?例如我有这个数据框:
text | genre
===========================
text 1 | [action,mistery,horror,thriller]
text 2 | [drama,romance]
text 3 | [comedy,drama,romance]
text 4 | [scifi,mystery,horror,thriller]
text 5 | [horror,mystery,thriller]
如何对经常一起出现的标签进行聚类?例如,类型“悬疑”、“恐怖”、“惊悚”经常一起出现(3次),类型“戏剧”、“浪漫”经常一起出现(2次) .
我认为您正在寻求执行频繁模式挖掘,也称为关联规则挖掘。有时人们将其称为关联规则学习,这是该概念的维基百科链接:https://en.wikipedia.org/wiki/Association_rule_learning。
频繁模式挖掘领域的算法通常会根据标签组合在数据中出现的频率对标签组合进行排序。您可以指定模式中标签的最小和最大数量,并选择支持度和置信度阈值。如果没有这些约束,输出将包括标签及其计数、支持度和置信度值的所有可能组合。
我的博士论文就是关于这个的!请检查此链接:https://github.com/cissagatto/HPML
有很多方法可以对标签进行聚类,在我的博士论文中,您可以阅读相关内容。另外,我的 GitHub 上有可用的代码!您可以私下联系我,进一步讨论该话题。
谢谢!