我有一个包含 90 万用户的指标,但我无法生成一个大致重复现有分布的分布。我需要它来快速生成 AA AB 测试的样本(保证提升)。
这是示例数据
**
count 953086.000000
mean 483.013657
std 1410.598133
min 0.000000
25% 33.000000
50% 125.000000
75% 421.000000
max 151074.000000
**
以下是该指标的 10K 用户样本:
如何确定分布?质量上?因为统计模块的Fit方法没有太大帮助
我尝试过统计包拟合的方法,但没有起到很好的作用。
我希望有人帮助我足够准确地重复分布,这样当我将 0 到 100 个单位的指标放在一起时,我会非常准确地匹配,并且尾部会更加随机,因为这是预期的。
虽然没有确切的数据很难知道,但这看起来像参数低于 1 的 Weibull 分布:
import numpy as np
import pandas as pd
n = 10_000
s = pd.Series(np.random.weibull(0.4, size=n))
s.plot.hist(bins=100)
您可能需要重新调整该值。