我正在尝试找出一个好的神经网络架构,它从不同角度进行投影(2D 图像)并创建由 2D 切片(类似 CT)组成的体积。
举个例子:
我有地面真相卷。
我提出了使用 ResNet 作为编码器的想法。但我不太确定如何实现 Decoder 以及什么模型是解决此类问题的不错选择。我确实想到了U-net架构,但是输出维度不同,所以我放弃了这个想法。
我正在使用 PyTorch。
指定整个网络超出了单个答案的范围,但通常您想要这样的东西:
ConvTranspose3d
层将潜在张量上采样到所需的输出大小您可以进行类似 UNet 的设置,其中跳过编码器层和解码器层之间的连接,您只需要一个投影层将编码器激活映射到与解码器激活兼容的形状。