我有一个超级大的数据框“df”,有 2000 万成员。 我希望能够将这个数据集分割成每个大小为 20K 的桶。我希望将生成的存储桶重命名为“Group1”、“Group2”等。我没有手动编码,而是研究了bucketizer,但没有运气让代码运行。我该怎么办?
分割数据集的原因是底层的Snowpark写入函数一次只能处理这么多数据而不会超时。
我最终使用 ntile 函数将大数据集分成 n 个相等的部分