apache spark sql中的等效percentile_cont函数

Question

我是新兴的环境。我有列名的数据集如下：

user_id，Date_time，order_quantity

我想计算每个user_id的order_quantity的第90个百分位数。

如果它是sql，我会使用以下查询：

%sql 
SELECT user_id, PERCENTILE_CONT ( 0.9 ) WITHIN GROUP (ORDER BY order_quantity) OVER (PARTITION BY user_id)

但是，spark没有内置支持使用percentile_cont函数。

关于我如何在上述数据集中实现这一点的任何建议？如果需要更多信息，请告诉我。

Answer 1

我有PERCENTILE_DISC（0.9）的解决方案，它将返回最接近百分位数0.9的离散order_quantity（无插值）。想法是计算PERCENT_RANK，减去0.9并计算绝对值，然后取最小值：%sql WITH temp1 AS ( SELECT user_id, ABS(PERCENTILE_RANK () OVER (PARTITION BY user_id ORDER BY order_quantity) -0.9) AS perc_90_temp SELECT user_id, FIRST_VALUE(order_quantity) OVER (PARTITION BY user_id ORDER BY perc_90_temp) AS perc_disc_90 FROM temp1;

apache spark sql中的等效percentile_cont函数

问题描述投票：4回答：1

user_id，Date_time，order_quantity

1个回答

最新问题

apache spark sql中的等效percentile_cont函数

问题描述 投票：4回答：1

user_id，Date_time，order_quantity

1个回答

最新问题

问题描述投票：4回答：1