假设我想删除重复项或对 Spark 数据框中的 3 列执行聚合。 这样做会更优化吗
df = df.withColumn(
"hash_dup",
f.hash(
f.coalesce(f.col("id_1"), f.lit("")),
f.coalesce(f.col("id_2"), f.lit("")),
f.coalesce(f.col("id_3"), f.lit(""))
)
).dropDuplicates(["hash_dup"])
或者使用以下列直接删除重复项:
df = df.dropDuplicates(["id_1","id_2","id_3"])
谢谢。