重塑硬层

问题描述 投票:7回答:2

我有一个输入图像416x416。如何创建4 x 10的输出,其中4是列数,10是行数?

我的标签数据是包含4列10行的2D数组。

我知道reshape()方法,但它要求结果形状具有与输入相同数量的元素。

使用416 x 416输入大小和最大池层,我可以获得最大13 x 13输出。

有没有办法在不丢失数据的情况下实现4x10输出?

我的输入标签数据类似于

[[  0   0   0   0]
 [  0   0   0   0]
 [  0   0   0   0]
 [  0   0   0   0]
 [  0   0   0   0]
 [  0   0   0   0]
 [  0   0   0   0]
 [116  16 128  51]
 [132  16 149  52]
 [ 68  31  77  88]
 [ 79  34  96  92]
 [126  37 147 112]
 [100  41 126 116]]

这表示我想要检测的图像上有6个对象,第一个值是xmin,第二个ymin,第三个xmax,第四个ymax。

我的网络的最后一层看起来像

(None, 13, 13, 1024)
python neural-network keras artificial-intelligence conv-neural-network
2个回答
1
投票

首先压平(None, 13, 13, 1024)

model.add(Flatten())

它会给13*13*1024=173056

一维张量

然后添加一个致密层

model.add(Dense(4*10))它将输出到40

这会将您的3D形状转换为1D

然后只需调整您的需求

model.add(Reshape(4,10))

这将起作用,但绝对会破坏数据的空间性质


0
投票

我认为将预测形状与所需输出相符合的最简单方法是@Darlyn提出的解决方案。假设到目前为止你已经宣布了网络(输出形状(13, 13, 1024)的张量):

x = Input(shape=(416, 416, 3))
y = Conv2D(32, activation='relu')(x)
...
y = Conv2D(1024, activation='relu')(y)

您只需添加一个将尝试预测框的回归层,然后将这些重新整形为(10, 4)

from keras.layers import Flatten, Dense, Reshape

samples = 1
boxes = 10

y = Flatten(name='flatten')(model.outputs)
y = Dense(boxes * 4, activation='relu')(y)
y = Reshape((boxes, 4), name='predictions')(y)
model = Model(inputs=model.inputs, outputs=y)

x_train = np.random.randn(samples, 416, 416, 3)

p = model.predict(x_train)
print(p.shape)

(1, 10, 4)

这是有效的,但我并不完全安全,直接回归这些值将产生良好的结果。我经常看到物体检测模型使用注意力,区域或显着性来确定物体的位置。您可以尝试一些对象检测keras实现:

keras-rcnn

classes = ["dog", "cat", "hooman"]

backbone = keras_rcnn.models.backbone.VGG16
model = keras_rcnn.models.RCNN((416, 416, 3), classes, backbone)
boxes, predictions = model.predict(x)

keras-retinanet

from keras_retinanet.models.resnet import resnet_retinanet

x = Input(shape=(416, 416, 3))
model = resnet_retinanet(len(classes), inputs=x)
_, _, boxes, _ = model.predict_on_batch(inputs)
© www.soinside.com 2019 - 2024. All rights reserved.