我已将数据集转换为二进制。所有为0的数值都为0,所有大于0的值都转换为1。现在,这导致数据重复。我正在使用NSLKDD数据集。有超过25000个实例,现在将它们转换为二进制文件并删除重复项后,仅剩下1729个不重复的实例。我应该如何将它们二值化而不重复?哦,我把它喂给了遗传算法,它也造成了后代的重复。
我不确定是否知道数据集,但是如果您有一个包含几列的数据框df
:
df
columnA columnB columnC ....
....
此question为您提供有关删除重复项的概述:
#drop duplicates (complete row is the same):
df.drop_duplicates(keep=First, inplace=True)
#drop duplicates only when column value is the same:
df.drop_duplicates(subset=['columnA'], keep=First, inplace=True)