使用ResNet50创建[w, h, f]的特征张量

Question

我正在尝试实现这篇论文，但我没有遵循其中的某些内容。

它希望我使用 ResNet50 从图像中提取特征，但告诉我提取的特征的维度为 [w, h, f]。不过，我在 ResNet50 中看到的一切都给了我一个 [f] 张量（例如，它将我的整个图像变成特征，而不是我的像素变成特征）

我读错了还是我只是不明白我应该用 ResNet50 做什么？

论文相关引用： “我们获得了大小为 f 的中间视觉特征表示 Fc。我们使用 ResNet50 [26] 作为我们的主干卷积架构。”

“第一步，通过保持其宽度，将三维特征 Fc 重塑为二维特征，即获得特征形状 (f × h, w)。”

Answer 1

首先通过pip安装timm、torch python包

创建模型并加载预训练的权重

import timm
import torch
model = timm.create_model('resnet50', pretrained=True, features_only=True)

# convert image torch tensor as ( nimages, channels, height, width ) ex- (1,3,224, 224)  
features = model( image ) 
print( features.shape )

(1, 2048, 224, 224)

使用ResNet50创建[w, h, f]的特征张量

问题描述投票：0回答：1

1个回答

最新问题

使用ResNet50创建[w, h, f]的特征张量

问题描述 投票：0回答：1

1个回答

最新问题

问题描述投票：0回答：1