我正在尝试实现这篇论文,但我没有遵循其中的某些内容。
它希望我使用 ResNet50 从图像中提取特征,但告诉我提取的特征的维度为 [w, h, f]。不过,我在 ResNet50 中看到的一切都给了我一个 [f] 张量(例如,它将我的整个图像变成特征,而不是我的像素变成特征)
我读错了还是我只是不明白我应该用 ResNet50 做什么?
论文相关引用: “我们获得了大小为 f 的中间视觉特征表示 Fc。我们使用 ResNet50 [26] 作为我们的主干卷积架构。”
“第一步,通过保持其宽度,将三维特征 Fc 重塑为二维特征,即获得特征形状 (f × h, w)。”
首先通过pip安装timm、torch python包
创建模型并加载预训练的权重
import timm
import torch
model = timm.create_model('resnet50', pretrained=True, features_only=True)
# convert image torch tensor as ( nimages, channels, height, width ) ex- (1,3,224, 224)
features = model( image )
print( features.shape )
(1, 2048, 224, 224)