我想预测连续变量(自动编码器)。当我将输入按最小-最大比例缩放到0-1间隔时,在输出层中使用S型激活是否有意义?乙状结肠不对应于MSE损失。有任何想法吗?
使用sigmoid
激活和回归损失,例如mean_squared_error
或mean_absolute_error
SUMMARY:如果不确定,请使用binary_crossentropy
+ sigmoid
。如果大多数标签是0或1或非常接近,请尝试mae
+ hard_sigmoid
。
EXPLANATION:
损失函数定义模型的优先级;对于回归,目标是根据地面真实情况(标签)进行预测的[[最小化偏差]]。激活范围介于0到1之间,MSE将起作用。 但是
正则化
Sigmoid
)从某种意义上讲,这是两全其美的选择:它的分布更“均匀”(在非渐近区间内),并严重地惩罚了“非常错误”的预测。实际上,BCE在这种预测上要比MSE严厉-因此,即使在“ 1”标签上预测出“ 0”(验证除外),您也应该很少看到。出于不言而喻的原因,只需确保not使用坚硬的S型曲线即可。
Autoencoders
需要确保
Ex
:信号数据。一个非常错误的时间步长可能会超过原本出色的整体重建效果]]拥有嘈杂的数据,并且更喜欢模型[[对噪声的鲁棒性] >>MSE vs. MAE
Sigmoid vs. Hard Sigmoid
二进制交叉熵对MSE对MAEy == 0
情况)