有效过滤嵌套的字典列表

Question

我有一个嵌套的字典列表，如下所示：

list_of_dict = [
       {
         "key": "key1",
         "data": [
             {
               "u_key": "u_key_1",
               "value": "value_1"
             },
             {
               "u_key": "u_key_2",
               "value": "value_2"
             }
         ]
       },

       {
         "key": "key2",
         "data": [
             {
                "u_key": "u_key_1",
                "value": "value_3"
             },
             {
               "u_key": "u_key_2",
               "value": "value_4"
             }
         ]
       }
    ]

你可以看到list_of_dict是一个dict列表，在里面，data也是一个dict列表。假设list_of_dict和data中的所有对象具有相似的结构，并且所有键始终存在。

在下一步我将list_of_dict转换为list_of_tuples，其中元组的第一个元素是key，然后是value中data键的所有值

list_of_tuples = [
          ('key1', 'value_1'), 
          ('key1', 'value_2'),
          ('key2', 'value_3'), 
          ('key2','value_4')
]

最后一步是与列表（comparison_list）进行比较。列表包含string值。列表中的值可以来自value密钥内部数据。我需要检查comparison_list中的任何值是否在list_of_tuples内并获取该值的键（元组的第一项）。

comparison_list = ['value_1', 'value_2']

我的预期输出是：

out = ['key1', 'key1']

我的解决方案如下：

  >>> list_of_tuples = [(c.get('key'),x.get('value')) 
               for c in list_of_dict for x in c.get('data')]

  >>> for t in list_of_tuple:
          if t[1] in comparison_list:
              print("Found: {}".format(t[0]))

所以问题的总结是我有值列表（comparison_list），我需要在data数组中找到它。

我正在操作的数据集非常庞大（> 100M）。我希望加快我的解决方案，并使其更紧凑和可读。我可以以某种方式跳过我创建list_of_tuples并直接进行比较的步骤吗？

Answer 1

您可以尝试一些简单的优化：

使comparison_list成为set所以查找是O（1）而不是O（n）
使list_of_tuples成为生成器，因此您不必一次实现所有条目
您还可以将条件集成到发电机本身

例：

comparison_set = set(['value_1', 'value_2'])
tuples_generator = ((c['key'], x['value']) 
                    for c in list_of_dict for x in c['data']
                    if x['value'] in comparison_set)
print(*tuples_generator)
# ('key1', 'value_1') ('key1', 'value_2')

当然，您也可以将比较与生成器分开：

tuples_generator = ((c['key'], x['value']) 
                    for c in list_of_dict for x in c['data'])
for k, v in tuples_generator:
    if v in comparison_set:
        print(k, v)

或者你可以改为从dict创建comparison_set映射值到list_of_dicts的键。这将使得更快地找到特定值的关键，但请注意，您只能为每个值保留一个键。

values_dict = {x['value']: c['key'] 
               for c in list_of_dict for x in c['data']
               if x['value'] in comparison_set}
print(values_dict)
# {'value_2': 'key1', 'value_1': 'key1'}

Answer 2

在上一步中，您可以使用类似这样的过滤器而不是迭代：

comparison_list = ['value_1', 'value_2']

print(list(filter(lambda x:x[1] in comparison_list,list_of_tuples)))

输出：

[('key1', 'value_1'), ('key1', 'value_2')]

有效过滤嵌套的字典列表

问题描述投票：1回答：2

2个回答

最新问题

有效过滤嵌套的字典列表

问题描述 投票：1回答：2

2个回答

最新问题

问题描述投票：1回答：2