应用不同骨干网的迁移学习

问题描述 投票:0回答:1

我有一个使用 R50-FPN、COCO 数据集和 Mask R-CNN 训练的预训练权重。原始数据集不可用。

我正在考虑使用不同的主干网,例如 X101-FPN,并使用新数据集(我必须处理的图像)对预训练的权重应用迁移学习。

这对你来说有意义吗?我怀疑它是否适用于不同的骨干结构,权重应该有很大不同,这很可能会使这个想法无效。

顺便说一句,这似乎是我想象的深度学习的一个非常常见的场景。比如说,尝试重复使用具有不同主干网的预训练权重,并且没有可用的原始数据集。人们如何处理它?就放弃吗?

machine-learning deep-learning transfer-learning mask-rcnn
1个回答
1
投票

IMO 更改主干网并在新数据集上进行训练是有意义的。然而,您希望在适应新数据集时避免降低主干和头部的权重(即第一个预训练模型的所有权重,除了主干的权重)。我会这样继续:

  1. 通过冻结预先训练的头部的重量来仅训练新骨干的重量。在热身中使用比平常更小的学习率 - 请参阅本文的热身。此外,首先仅使用训练数据的一个样本,看看它是否收敛,因为模型会严重过度拟合。这是对整个架构是否正确工作并且应该很快的健全性检查。如果有效,您可以尝试使用更多数据并评估正确的验证数据。

  2. 在不冻结头部的情况下训练你的新骨干网,再次以较小的学习率、预热并在对所有数据进行训练之前用一个样本检查它是否有效。你应该得到一个在 COCO 上训练并具有新主干的模型。

© www.soinside.com 2019 - 2024. All rights reserved.