编码器 - 具有不同输入和输出大小的解码器神经网络架构

问题描述 投票:0回答:1

我正在尝试找出一个好的神经网络架构,它从不同角度进行投影(2D 图像)并创建由 2D 切片(类似 CT)组成的体积。

举个例子:

  • 输入 [180,100,100] -> 100x100 像素图像的 180 个投影。
  • 输出 [100,100,100] -> 大小为 100x100x100 的体积(100 个 2D 图像切片)

我有地面真相卷。

我提出了使用 ResNet 作为编码器的想法。但我不太确定如何实现 Decoder 以及什么模型是解决此类问题的不错选择。我确实想到了U-net架构,但是输出维度不同,所以我放弃了这个想法。

我正在使用 PyTorch。

deep-learning pytorch conv-neural-network resnet encoder-decoder
1个回答
0
投票

指定整个网络超出了单个答案的范围,但通常您想要这样的东西:

  1. 使用 Resnet 或视觉转换器作为编码器
  2. 使用编码器将输入映射到潜在张量
  3. 根据需要重塑潜在张量
  4. 使用
    ConvTranspose3d
    层将潜在张量上采样到所需的输出大小

您可以进行类似 UNet 的设置,其中跳过编码器层和解码器层之间的连接,您只需要一个投影层将编码器激活映射到与解码器激活兼容的形状。

© www.soinside.com 2019 - 2024. All rights reserved.