数据集的二值化导致重复。对此有任何解决方案吗？

Question

我已将数据集转换为二进制。所有为0的数值都为0，所有大于0的值都转换为1。现在，这导致数据重复。我正在使用NSLKDD数据集。有超过25000个实例，现在将它们转换为二进制文件并删除重复项后，仅剩下1729个不重复的实例。我应该如何将它们二值化而不重复？哦，我把它喂给了遗传算法，它也造成了后代的重复。

Answer 1

我不确定是否知道数据集，但是如果您有一个包含几列的数据框df：

df
columnA columnB columnC ....
....

此question为您提供有关删除重复项的概述：

#drop duplicates (complete row is the same):
df.drop_duplicates(keep=First, inplace=True)
#drop duplicates only when column value is the same:
df.drop_duplicates(subset=['columnA'], keep=First, inplace=True)

数据集的二值化导致重复。对此有任何解决方案吗？

问题描述投票：0回答：1

1个回答

最新问题

数据集的二值化导致重复。对此有任何解决方案吗？

问题描述 投票：0回答：1

1个回答

最新问题

问题描述投票：0回答：1