我有一个数据集,其中包含大约 50,000 个观察值。我想在估计 ElasticNet 进行回归后使用 KernelExplainer 计算 Shapley 值。有没有什么参考或规则来确定K和nsamples的值?非常感谢。
我尝试了 K=10 和 nsamples=100,但每个特征的 Shapley 值图通常是向上或向下倾斜的线。在某些情况下,图中只有两个点。
您通常会使用 K = 20-100 质心作为背景数据。
nsamples
的一个好的值是 $p(p+1) + 200$,其中 $p$ 是特征数量。 KernelExplainer 以非常智能的方式实现,它将列出所有重要的 $p(p+1)$ 开关(屏蔽)组合。 200 个额外的开关样本将覆盖 KernelSHAP 分布中不太重要的部分。