用于计算连续变量的熵的bin尺寸? [关闭]

问题描述 投票:0回答:2

i有一个变量,其值类似于[23.13,56.1,12.6,1.23,5.56]。我想找到此变量的熵。我在这里有一个代码如何计算n变量的香农熵和互信息。

statistics entropy
2个回答
8
投票

对于连续分布,您最好使用Kozachenko-Leonenko k-nearest邻居估计器(K&L 1987)和相应的Kraskov,...,Grassberger(2004)互估计估计器的估计量。

Kozachenko-Leonenko估计器的基本思想是查看(某些功能)相邻数据点之间的平均距离。直觉是,如果该距离很大,则数据中的色散很大,因此熵很大。实际上,一个人倾向于采取k-nearthigh的距离,而不是走最近的邻居距离,这倾向于使估计更强大。 我在我的github上都有实现:

https://github.com/paulbrodersen/entropy_estimators

.

.

我们可以创建变量的直方图,并使用垃圾箱创建有限的类别集。这将充当连续变量的离散版本。或计算第n个百分位并将其用作类别。


-1
投票
最新问题
© www.soinside.com 2019 - 2025. All rights reserved.