将此标记用于与softmax函数相关的编程相关问题,也称为归一化指数函数。特定于某种编程语言的问题也应该用该语言标记。
是否有一种数值稳定的方法来计算下面的softmax函数? 我得到的值在神经网络代码中变成了 Nans 。 np.exp(x)/np.sum(np.exp(y))
我正在尝试仅使用 NumPY 库创建一个分类神经网络。我已经完全创建了这个网络并研究了它的逻辑,对我来说它看起来非常好。 ...
我正在听斯坦福大学的CS231课程。我无法理解 RNN 的观点,为什么 Softmax 无法为字符 o 选择最高概率 0.84(在
为了从“第一原理”的角度更好地理解机器学习,我正在实现自己的 ML 相关功能。 目前我正在尝试实现 SoftMax:
torch.nn.function.softmax 给出不准确的 softmax 输出
我正在尝试从头开始实现屏蔽自注意力,但是在计算相似性分数的 softmax 时,我得到了奇怪的结果。我查看了文档和其他发布的问题...
我在实现Softmax Layer的后向函数时遇到了问题,但我尝试了很多方法仍然没有成功。有人可以帮我解决吗?
我有实现前向和后向传递的 Softmax 函数的练习,但是当我运行它时,它有这样的错误: 在抛出 'std::invalid_argum... 的实例后调用终止...
我有一个模型,其中包含 N 个类别的最终 softmax 层。 这些类别是有序的和数字的,因此计算 softmax 给出的概率分布的统计数据是有意义的。
我目前正在研究softmax函数,我想调整最初实现的一些小测试。 我看过文档,但没有太多有用的信息......
我有一个类似 CNN 的常规网络,其顶部有标准 MLP 层。在 MLP 之上,我也有一个 softmax 层,但是,与传统网络不同,它没有完全连接到 MLP...
我正在尝试计算Softmax反向传递; fn softmax_backward(&self, logits: &Vec) -> Vec { 让概率 = self.forward(logits); 让 mut 求导...
神经网络:对于二元分类,使用 1 或 2 个带有 VGG19 的输出神经元
我有两组图像(混凝土裂缝和未开裂的混凝土),所以它们是二元分类,我正在使用 vgg19 对它们进行分类。 当我使用 (1) 神经元作为输出 la...
我正在尝试在Python中实现softmax熵损失的梯度。但是,我可以看到解析梯度与数值梯度不匹配。这是我的Python代码: 导入numpy...
我有一个经过训练的顺序 keras 模型。 最后一层是具有 softmax 激活函数的 Dense 层: 模型 = keras.models.Sequential() 模型.add(...) 模型.add(...) 模型.add(...) 模型.add(k...
我知道逻辑回归用于二元分类,softmax回归用于多类问题。如果我用相同的方法训练几个逻辑回归模型会有什么不同吗?
如果这是一个愚蠢的问题,我很抱歉,但我就是无法理解这个问题。 我正在尝试创建我的第一个神经网络,它采用 MNIST 数据 (28x28),其中包含手绘数字 0-9...
Word2Vec Hierarchical Softmax 中的内部顶点里面有什么?
我有一个关于分层 Softmax 的问题。实际上,我不太明白内部顶点(不是叶顶点)中存储的内容。我清楚地理解了这个算法的主要思想...
还有比这更好的方法来实现强化学习的 Softmax 动作选择吗?
我正在为强化学习任务实施 Softmax 动作选择策略 (http://www.incompleteideas.net/book/ebook/node17.html)。 我提出了这个解决方案,但我认为还有空间
我正在使用这个存储库(https://github.com/SnailWalkerYC/LeNet-5_Speed_Up)并尝试学习神经网络细节。该仓库用 C 和 CUDA 实现了 LeNet5。我现在专注于CPU部分及其组件...
论文《Attention is all you need》中为什么当值很大时,softmax 得到的梯度很小
这是原始论文的屏幕:论文的屏幕。我理解论文的意思是,当点积的值很大时,softmax的梯度会变得很小。
您能描述一下如何以 C++ 的通用术语应用 SoftMax 导数吗?
我需要一个可以走出禁区几分钟的人。问题是关于 Softmax 的导数。在开始之前我先说一下; 有些人有这个障碍——我从