在 pyspark 中将大数据集分成相等的桶

问题描述 投票:0回答:1

我有一个超级大的数据框“df”,有 2000 万成员。 我希望能够将这个数据集分割成每个大小为 20K 的桶。我希望将生成的存储桶重命名为“Group1”、“Group2”等。我没有手动编码,而是研究了bucketizer,但没有运气让代码运行。我该怎么办?

分割数据集的原因是底层的Snowpark写入函数一次只能处理这么多数据而不会超时。

python pyspark snowflake-cloud-data-platform
1个回答
0
投票

我最终使用 ntile 函数将大数据集分成 n 个相等的部分

© www.soinside.com 2019 - 2024. All rights reserved.