关于加快SciPy定制分销抽样和配件的建议

问题描述 投票:0回答:1

我正在尝试使用scipy将自定义分布拟合到大型(~O(500,000)测量)数据集。我基于其他一些因素得出了理论PDF,但是无论是手工还是使用符号集成软件,我都找不到CDF的确切形式。

目前,简单地从我的自定义分发中评估1000个随机样本是昂贵的,我认为这是由于需要反转未知的CDF。如果我找不到CDF的明确形式而且它是相反的,那么我还能做些什么来加速这种发行的使用吗?

我已经使用了maple,matlab和Sympy来尝试确定CDF,但没有一个给出结果。我还尝试对数据进行下采样,同时仍然保留尾部属性,但这仍然需要大量数据,因此对分发执行任何操作都很慢。

我的发行版是SciPy的rv_continuous类的子类。

谢谢你的建议。

scipy sampling
1个回答
0
投票

这听起来像你想要从概率分布的Kernel Density Estimation中抽样。虽然Scipy确实提供了高斯内核包,但对于许多测量,使用sklearn's implementation会更好。有关代码示例的优秀资源可以在Jake VanderPlas的blog上找到。

© www.soinside.com 2019 - 2024. All rights reserved.