我有一个数据集,其中包含分类为109个类别的130万条记录。显然存在等级失衡,数据中最高等级为18%,最低等级小于1%
现在,我的任务是设计一个通用的论坛/技术/代码,以便从这些记录中进行采样,使得:我们需要选择的最小记录数是多少,以使其包含K类的记录(其中K可以从1开始变化至109),并代表这些类别的原始数据。显然,这不是一个精确的解决方案,因此我们可以处理“高置信度”解决方案]
似乎您有一个简单的组合问题。假设您在一个盒子里有M个红色大理石弹和N个绿色大理石弹。您随机抽出K个弹珠。样品中红色与绿色的比例的期望值是多少?此外,方差是多少?让我们将“代表”定义为比率的95%置信区间中的极值(expected-2 * std,expected + 2 * std)相对于比率的预期值不超过10%宽。将其表示为K的函数非常简单(实际上,您可以用铅笔和纸做2类)。对于三个类别,您可以说两个类别之间比率的最大方差应不超过10%。