我正在尝试实现朴素贝叶斯分类器,这确实是拉普拉斯平滑的困惑问题。
C类中获得单词的概率为:
<pre>
P(Wi|C) = (count(Wi,C) + 1) / (count(all, C) + |V|)
</pre>
但是V是什么?是只训练语料库的词汇吗?还是V是整个英语词汇?
应该是训练语料库的词汇。
[朴素贝叶斯中的拉普拉斯平滑用于维持Bias-方差折衷或过度拟合-拟合不足问题。
它将超级参数(Alpha)添加到分子和分母字段中。您必须调整此参数,才能使用GridSearch或RandomSearch技术选择更好的模型。 https://towardsdatascience.com/hyperparameter-tuning-c5619e7e6624