如果“x”值不同,则两个 PDF(或 CDF)相同

问题描述 投票:0回答:1

我得到了两组数据,我需要弄清楚它们是否“相同”。每个数据集都包含一个 PDF 和一个 CDF(但不包括底层样本)。 PDF 和 CDF 数据采用 x、y 值的形式,它们是连续数据的数字化样本。我不知道底层分布是什么(我不知道底层分布是 beta 还是对数正态分布等) 我的数据看起来像:

第 1 组:

  • x1: [1023, 1024, 1025, ...]
  • CDF1:[0, 0.001, 0.0025, ....]
  • PDF1: [0, 0.001, 0.0015, ...]
  • 长度1:n1

第二组:

  • x2: [1021.5, 1026.5, 1031.5, ...]
  • CDF2:[0, 0.002, 0.0043, ....]
  • PDF2:[0, 0.002, 0.0023 ...]
  • 长度2:n2

重要的是:

  • n1 != n2 - 长度相同,这意味着数据集不“对齐”。
  • 有时,x1[0] != x2[0] - 第一个 x 值大部分相同,但有时它们会略有不同
  • 有时,x1[-1] != x2[-1] - 最终的 x 值大部分相同,但有时会略有不同

显然,我想到了 Kolmogorov-Smirnov 检验,但我的阅读表明该检验取决于 x 轴上“排列”的 CDF 值,这不是我这里的情况。我想过将我的数据集插值到相同的 x 轴,但我担心这会引入拟合错误。

我查看了其他非参数测试,但似乎到处都是同样的问题,因为 x 值不对齐。

是否有不依赖于相同时间间隔采样的 CDF/PDF 数据的非参数检验?

statistics probability-density cdf probability-distribution kolmogorov-smirnov
1个回答
0
投票

使用两个样本 Kolmogorov-Smirnov 检验并对未对齐的 x 值进行插值。根据维基百科,样本数量可以不同,插值应该只保留 CDF 的左值,因为它是样本数量小于值 x 的样本数量(这在 one-sample 中指定) Kolmogorov-Smirnov 统计 文章中的部分)

© www.soinside.com 2019 - 2024. All rights reserved.