什么是Python式的集合切片方法?

问题描述 投票:0回答:5

我有一些数据列表,例如:

some_data = [1, 2, 4, 1, 6, 23, 3, 56, 6, 2, 3, 5, 6, 32, 2, 12, 5, 3, 2]

我想获得固定长度的唯一值(我不在乎我会得到哪个),我也希望它是一个

set

我知道我可以从

set
some_data
,然后制作
list
,裁剪它,然后再次制作
set

set(list(set(some_data))[:5])  # doesn't look so friendly

我知道我在

__getitem__
中没有
set
方法,这不会使整个切片成为可能,但是否有机会让它看起来更好?

我完全理解

set
是无序的。所以最终的元素是什么并不重要
set

可能的选项是使用:

  • 有序集

  • 使用

    dict
    None
    值:

     set(dict(map(lambda x: (x, None), some_data)).keys()[:2])  # not that great
    
python set
5个回答
19
投票

集合是可迭代的。如果您真的不关心选择集合中的哪些项目,则可以使用

itertools.islice
获取一个迭代器,该迭代器将产生指定数量的项目(以迭代顺序中最先出现的项目为准)。将迭代器传递给
set
构造函数,您无需使用任何额外的列表即可获得子集:

import itertools

some_data = [1, 2, 4, 1, 6, 23, 3, 56, 6, 2, 3, 5, 6, 32, 2, 12, 5, 3, 2]
big_set = set(some_data)
small_set = set(itertools.islice(big_set, 5))

虽然这是您所要求的,但我不确定您是否应该真正使用它。集合可能会以非常确定的顺序进行迭代,因此如果您的数据通常包含许多相似的值,那么每次执行此操作时,您最终可能会选择一个非常相似的子集。当数据由整数组成(如示例中所示)时,这尤其糟糕,整数会散列到自身。在迭代集合时,连续的整数会经常按顺序出现。在上面的代码中,只有

32
big_set
(使用Python 3.5)中是乱序的,所以
small_set
{32, 1, 2, 3, 4}
。如果您将
0
添加到数据中,即使数据集变得很大,您几乎总是会得到
{0, 1, 2, 3, 4}
,因为这些值将始终填充集合哈希表中的前五个槽。

为了避免这种确定性采样,您可以使用

random.sample
,如 jprockbelly 所建议。


7
投票

您可以试用套装

import random
set(random.sample(my_set, 5)) 

这样做的好处是你每次都会得到不同的数字


4
投票

你可以尝试一个简单的集合理解:

some_data = [1, 2, 4, 1, 6, 23, 3, 56, 6, 2, 3, 5, 6, 32, 2, 12, 5, 3, 2]
n = {x for i, x in enumerate(set(some_data)) if i < 5}
print n

输出:

set([32, 1, 2, 3, 4])


0
投票

我浏览了上面所有的例子,所有的答案确实都很棒。我还有另一种方法可以分享来切片集,即使用 * 运算符。这种方法要求我们使用变量来存储元素的内存地址/引用。切片后得到的最终输出是一个列表,因此如果我们希望最终输出是一个集合,我们需要将最终结果类型转换为列表或我们想要的任何其他数据类型。由于我没有 10 个点,因此无法嵌入代码图像,因此给出了代码图像的链接。请看一下并随时提供任何相关建议。 谢谢。

示例代码图片

The sample code image


0
投票
def create_chunks(set_of_emails, chunk_size):
    """Create chunks from queryset."""
    for i in range(0, len(set_of_emails), chunk_size):
        yield itertools.islice(set_of_emails, i , i + chunk_size)

# uses:
for chunk in create_chunks(invalid_emails_, chunk_size):

你可以迭代集合

© www.soinside.com 2019 - 2024. All rights reserved.