我在 DataBricks 上使用 Pyspak。我已经得到了基于训练样本的百分位表。现在,我想使用一个表来获取测试数据集的百分位数。例如:我有列“Val1”,我通过对“val1”应用百分位排名函数并在每 0.01 个百分位创建一个表来创建一个百分位表。像下面这样的东西 |val1|百分位数| |-----|------------| |-1000|0| |-800|0.01| |-750|0.02| |-650|0.03| |....|...| |1500|0.97| |1600|0.98| |1750|0.99| |2000|1|
现在我想使用这个表来获取测试数据集中“Val1”的百分位数。 如果该值介于两者之间,则在两个边界之间进行插值。 例如:如果在测试中一行有 1550,则百分位数应为 0.975,因为上表中 1500 的值为 0.97,而 1600 的值为 0.98。
这有可能实现吗? Thaks.