我还没有真正看过讲座,但我认为顶部的“e”是预期的输出(还有“l”、“l”、“o”)。初始权重没有给出足够好的结果(给出“o”而不是“e”)。当您训练网络时,权重将变得更加成熟,最终您将看到概率的变化,并且第一个预测最终将导致“e”
基本上,这是因为他们使用了采样,所以他们使用softmax给出的概率分布来抽取样本,从技术上来说,这可以让你抽取词汇表中的任何字符,只要它的概率非零。正如他们在视频中所说,他们很“幸运”,画了一个与他们期望的角色相匹配的角色,这样做是为了让插图有意义。如果不是采样方法,则将是 argmax 概率,在这种情况下,您总是选择分布中概率最高的字符(即图中的 o)。