应用不同骨干网的迁移学习

问题描述投票：0回答：1

我有一个使用 R50-FPN、COCO 数据集和 Mask R-CNN 训练的预训练权重。原始数据集不可用。

我正在考虑使用不同的主干网，例如 X101-FPN，并使用新数据集（我必须处理的图像）对预训练的权重应用迁移学习。

这对你来说有意义吗？我怀疑它是否适用于不同的骨干结构，权重应该有很大不同，这很可能会使这个想法无效。

顺便说一句，这似乎是我想象的深度学习的一个非常常见的场景。比如说，尝试重复使用具有不同主干网的预训练权重，并且没有可用的原始数据集。人们如何处理它？就放弃吗？

machine-learning deep-learning transfer-learning mask-rcnn

1个回答

1
投票

IMO 更改主干网并在新数据集上进行训练是有意义的。然而，您希望在适应新数据集时避免降低主干和头部的权重（即第一个预训练模型的所有权重，除了主干的权重）。我会这样继续：

通过冻结预先训练的头部的重量来仅训练新骨干的重量。在热身中使用比平常更小的学习率 - 请参阅本文的热身。此外，首先仅使用训练数据的一个样本，看看它是否收敛，因为模型会严重过度拟合。这是对整个架构是否正确工作并且应该很快的健全性检查。如果有效，您可以尝试使用更多数据并评估正确的验证数据。
在不冻结头部的情况下训练你的新骨干网，再次以较小的学习率、预热并在对所有数据进行训练之前用一个样本检查它是否有效。你应该得到一个在 COCO 上训练并具有新主干的模型。

最新问题

© www.soinside.com 2019 - 2024. All rights reserved.