使用ResNet50创建[w, h, f]的特征张量

问题描述 投票:0回答:1

我正在尝试实现这篇论文,但我没有遵循其中的某些内容。

它希望我使用 ResNet50 从图像中提取特征,但告诉我提取的特征的维度为 [w, h, f]。不过,我在 ResNet50 中看到的一切都给了我一个 [f] 张量(例如,它将我的整个图像变成特征,而不是我的像素变成特征)

我读错了还是我只是不明白我应该用 ResNet50 做什么?

论文相关引用: “我们获得了大小为 f 的中间视觉特征表示 Fc。我们使用 ResNet50 [26] 作为我们的主干卷积架构。”

“第一步,通过保持其宽度,将三维特征 Fc 重塑为二维特征,即获得特征形状 (f × h, w)。”

deep-learning pytorch computer-vision ocr resnet
1个回答
0
投票

首先通过pip安装timm、torch python包

创建模型并加载预训练的权重

import timm
import torch
model = timm.create_model('resnet50', pretrained=True, features_only=True)

# convert image torch tensor as ( nimages, channels, height, width ) ex- (1,3,224, 224)  
features = model( image ) 
print( features.shape )

(1, 2048, 224, 224)

© www.soinside.com 2019 - 2024. All rights reserved.