我有一个很大的整数列表(数百万个元素),我需要有效地查找并删除其中的重复值。我尝试过使用带有 for 循环的简单方法,但对于非常大的数据集来说它太慢了。这是我尝试过的。
我认为你的问题有点不完整。最好了解删除重复项的最终目标以及元素的顺序对于该最终目标是否至关重要。
如果元素的顺序不是必需的,那么使用
set
或将 list
转换为 set
可能是最简单的方法。
也许类似
data_set = set(data_list)
我了解,在数据转换产生类似于不同数据类型的结果的情况下,使用标准库转换底层数据类型可能会更快。
但同样,将
list
转换为 set
,然后将 set
转换回 list
可能效果不佳。