鉴于我有一个深度学习模型(从前同事那里移交)。由于某些原因,缺少训练/开发集。
根据我的情况,我想将数据集分为100个类别。数据集极不平衡。数据集的大小约为几千万
首先,我运行模型并获得整个数据集的预测。
然后,我根据类别对100个记录进行了采样(根据预测),并获得了10,000个测试集。
接下来,我为测试集标记每个记录的基本事实,并计算每个类别的精度,召回率,f1,并得到F1-micro和F1-macro。
如何估算整个数据集的准确性或其他指标?我使用每个类别的精度的加权总和(权重是整体上预测的比例)进行估算是否正确?
由于预测类别的分布与真实类别的分布不同,因此我认为加权方法不起作用。有人可以解释吗?