我有一个如下所示的表格,因为订单号是根据日期重复出现的,我只想读取其中一个最新日期。例如,在 pyspark 上获取 24/03/2022 的 A1 谢谢
w = Window.partitionBy('order').orderBy('date') df = (df .withColumn('rank',F.row_number().over(w))) df = (df .filter(df['rank'] == 1).drop('rank'))
我通过按日期对订单进行排名并选择排名最低的订单解决了这个问题