我有一个DataFrame,其中多行共享group_id值(非常多的组)。
有没有一种优雅的方法可以将训练和测试集不共享group_id的方式随机将这些数据分成训练和测试数据?
我现在能想出的最好的流程是 - 从msk = np.random.rand()创建掩码 - 将其应用于DataFrame - 检查测试文件以查找与训练集共享group_id的行,并将这些行移动到训练集。
这显然不是优雅的,并且存在多个问题(包括测试数据最终为空的可能性)。我觉得必须有更好的方法,是吗?
谢谢
哦,有一个简单的方法!