它没有任何意义,因为人们会获得负面信息增长。 基于此示例,我将获得负面信息增益。 the是数据:
如果我计算有关湿度属性的信息增益,我会得到:
显然我在这里错过了一些东西。
eDit
在这种情况下,那是:
每个属性的信息增益定义为:
湿度我计算为:
系统 - (1/4)湿度正常的熵 - (3/4)湿度高
this libre办公室计算:
或我对属性信息获得的公式的理解是不正确的吗?
溶解
我的错误是,如果所有类型都是一种类型,我没有意识到熵是0。因此,如果一切都是正的,则熵为0,如果全部为负,则也为零。如果相等的量为正且负数,则熵为1。
从开始,我假设您的S
enjoySport
。 (我认为您可以更清楚地表达文本,顺便说一句。)S
的熵为0.8113,但这是我同意的最后一部分。的熵为0,因为它是确定性的。 给出的the -high的熵为0.91829583405448945,但您需要将其乘以0.75,因为这是normal的概率。因此,这给了您0.68872187554086706.
如预期的那样,差异是非负的。注意信息增益是熵的指示差异,并且期望需要考虑到条件事件的概率。