在 pyspark 中将大数据集分成相等的桶

Question

我有一个超级大的数据框“df”，有 2000 万成员。我希望能够将这个数据集分割成每个大小为 20K 的桶。我希望将生成的存储桶重命名为“Group1”、“Group2”等。我没有手动编码，而是研究了bucketizer，但没有运气让代码运行。我该怎么办？

分割数据集的原因是底层的Snowpark写入函数一次只能处理这么多数据而不会超时。

Answer 1

我最终使用 ntile 函数将大数据集分成 n 个相等的部分