如何生成特定分布?

问题描述 投票:0回答:1

我有一个包含 90 万用户的指标,但我无法生成一个大致重复现有分布的分布。我需要它来快速生成 AA AB 测试的样本(保证提升)。

这是示例数据

**

count    953086.000000
mean        483.013657
std        1410.598133
min           0.000000
25%          33.000000
50%         125.000000
75%         421.000000
max      151074.000000

**

以下是该指标的 10K 用户样本:

enter image description here

如何确定分布?质量上?因为统计模块的Fit方法没有太大帮助

我尝试过统计包拟合的方法,但没有起到很好的作用。

我希望有人帮助我足够准确地重复分布,这样当我将 0 到 100 个单位的指标放在一起时,我会非常准确地匹配,并且尾部会更加随机,因为这是预期的。

numpy scipy distribution
1个回答
0
投票

虽然没有确切的数据很难知道,但这看起来像参数低于 1 的 Weibull 分布

import numpy as np
import pandas as pd

n = 10_000
s = pd.Series(np.random.weibull(0.4, size=n))
s.plot.hist(bins=100)

Weibull distribution

您可能需要重新调整该值。

© www.soinside.com 2019 - 2024. All rights reserved.