我正在寻找以最大化类别数量同时最小化分类错误的方式聚合预测结果的想法。
作为一个激励性的例子,假设我正在执行一项预测任务,以按流派对歌曲进行分类,并且有 6 种流派(来自下面的目标列):
类型(广泛) | 类型(目标) |
---|---|
流行 | 独立流行音乐 |
流行 | 超级流行 |
流行 | 韩国流行音乐 |
摇滚 | 另类摇滚 |
摇滚 | 经典摇滚 |
摇滚 | 硬摇滚 |
该模型在识别前 4 个类别(独立流行、超级流行、韩国流行、另类摇滚)方面具有 100% 的准确度,但将大约 50% 的硬摇滚歌曲错误地分类为经典摇滚,将大约 20% 的经典摇滚歌曲错误地分类为硬摇滚。
基于此,我们可以想象通过几种方式聚合目标类型,从而减少分类错误。例如
在这种情况下,我希望将目标类型聚合到这 5 个类别,保留尽可能多的类别,同时保持 100% 的准确性。
为了找到理想的聚合结构,我可以排列所有可能的聚合并计算 MSE。然而,考虑到我正在使用的类的数量,这在计算上是不可行的。所以,我想知道是否有一些相关文献可以阅读,以更好地理解如何解决这个问题,或者是否有人有想法。
谢谢您,如果这个问题太模糊,我们深表歉意。很高兴编辑它以改进它!
我确信有人更有资格回答这个问题。然而,下面是我今天读到的一些深夜反省……
假设每个唯一的目标类型只有两种状态(是/1或否/0),如果您要采用完整的析因实验,您最终将进行 2^([count(目标类型)]) 试验,这很快就会变得计算成本高昂!如您所知,6 个变量中的 4 个变量的分类精度相当不错(当然我收集您的实际数据集有更多变量),您可以聚合经典岩石和硬岩的条件以了解它们之间的相互作用。
换句话说,如果歌曲由经典和硬错误组成,则分配两个状态 1,如果歌曲有经典但没有硬错误,则分配经典 1 状态和硬 0 状态...等等。通过改变歌曲中是否也包含其他目标流派(即独立流行音乐、韩国流行音乐等),您可以构建一组试验来进行测试。测试所有可能的试验将是完整的析因实验。你已经说过你对此不感兴趣。为了限制计算数量,您可以对所有排列(即 1 0、1 1、0 1 和 0 0)使用 rock 和 classic,然后为四个不同的试验随机分配其他四个变量状态。彼此重复四变量随机状态迭代所需的次数,然后更改四变量随机状态迭代并重复相同次数等。通过比较误差可以看到检测到的其他歌曲的数量如何影响模型对经典的分类和硬摇滚。
供参考,这是受到 Jiju Anthony 的“实验设计”的启发。虽然这本书提到了制造环境中的实验,但我认为它也适用于这里。