根据最新日期值选择行来读取 pyspark 数据帧

问题描述 投票:0回答:1

我有一个如下所示的表格,因为订单号是根据日期重复出现的,我只想读取其中一个最新日期。例如,在 pyspark 上获取 24/03/2022 的 A1 谢谢

This my data table

python dataframe apache-spark pyspark
1个回答
4
投票
w = Window.partitionBy('order').orderBy('date')

df = (df
.withColumn('rank',F.row_number().over(w)))

df = (df
.filter(df['rank'] == 1).drop('rank'))

我通过按日期对订单进行排名并选择排名最低的订单解决了这个问题

© www.soinside.com 2019 - 2024. All rights reserved.