我有一些Raspberry Pi相机专注于喂鸟器,持续运行TensorFlow对象检测图(SSD MNet2)来检测鸟类。随着时间的推移,我已经建立了一个包含13种物种的+ 10k图像的数据集,并经常重新训练该图。
我的数据集中的图像表现出主观歧义。当我查看图像时,从某些角度来看,麻雀的确看上去有些像老鼠(它的腹部和双脚),而在光线不足的情况下,黑鸟则倾向于八哥等。但是,在训练下,我怀疑我所有的地面真理框都隐含地为100%,而这显然是不正确的。我还怀疑真正的概括会相应地模糊类别,并且我希望我的图表趋于真实。
[我最近了解到,我可以在基本事实(Class weights for balancing data in TensorFlow Object Detection API)中为每个项目指定权重,所以也许我可以根据每个项目的理想程度或明确程度对数据集进行排名。
[根据目前的实际情况运行最新模型似乎很直观(不可否认,接受过培训)会给出每个地面真相项目的理想性(缺乏歧义性)的指示(可以在授权审核后)直接为每个基本事实项排名(有效地赋予权重)。
为了进一步改善模型,其准确性,对歧义的处理(以及通过Lucid可视化的明显可理解性,我想我可以:
但是在每个数据集项目上设置适当的权重是否等同于对排名的训练记录进行分层?
首先,尝试从数据集中删除不明确的数据并训练模型,并将其结果与先前的模型进行比较。
如果没有帮助,则使用类权重来平衡数据。