我有两个数据帧,称为 df1 和 df2。 df1 有 300 M 条记录,df2 有 400 M 条记录。进行简单的内部连接并写入 s3 存储桶。下面是我的示例代码片段
代码:
sql = """ select df1.*,df2.* from df1 inner join df2 on df1.year=df2.year and df1.month = df2.month and df1.day = df2.day and df1.id = df2.id
Pyspark 代码:
spark.sql(sql).write('delta').mode('overwrite').saveAsTable('schema.tablename)
如何高效创造Delta?在我的集群中,需要 3 个小时才能完成。我已启用 AQE 和随机分区 = 自动。
这是一个非常主观的问题,变量太多。一般指导: