为什么Softmax不以最大概率进行选择？

Question

我正在听斯坦福大学的课程CS231。我无法理解 RNN 的观点，为什么 Softmax 无法为字符 o 选择最高概率 0.84（在所附示例中），而不是字符 e 的 0.13。非常感谢您的解释。

Answer 1

我还没有真正看过讲座，但我认为顶部的“e”是预期的输出（还有“l”、“l”、“o”）。初始权重没有给出足够好的结果（给出“o”而不是“e”）。当您训练网络时，权重将变得更加成熟，最终您将看到概率的变化，并且第一个预测最终将导致“e”

Answer 2

基本上，这是因为他们使用了采样，所以他们使用softmax给出的概率分布来抽取样本，从技术上来说，这可以让你抽取词汇表中的任何字符，只要它的概率非零。正如他们在视频中所说，他们很“幸运”，画了一个与他们期望的角色相匹配的角色，这样做是为了让插图有意义。如果不是采样方法，则将是 argmax 概率，在这种情况下，您总是选择分布中概率最高的字符（即图中的 o）。

为什么Softmax不以最大概率进行选择？

问题描述投票：0回答：2

2个回答

最新问题

为什么Softmax不以最大概率进行选择？

问题描述 投票：0回答：2

2个回答

最新问题

问题描述投票：0回答：2