我有一个数据结构,设置如下:`
"id":"12345",
"key":"XYZ-123"
"fields":{
"labels":[
"label1",
"label2",
"label3"
]
},
"id":"67890",
"key":"ABS-789"
"fields":{
"labels":[
"label1",
"label2",
]
}
`
我正在使用pandas将它们放入数据框中,我需要做的是获取具有特定标签的条目数。使用上面的代码,我理想的输出将是
label1: 2
label2: 2
label3: 1
我如何实现这一目标?提前致谢。编辑 - 我尝试过的一件事是进一步展平数据框,以便将列输出为label_1,label_2,label_3等。但是,列之间存在重复数据。
这是通过collections.Counter
的一种方式。我的假设是你从一个字典列表开始,如下所述。
lst = [{"id":"12345","key":"XYZ-123","fields":{"labels":["label1", "label2", "label3"]}},
{"id":"67890","key":"ABS-789","fields":{"labels":["label1","label2",]}}]
# [{'fields': {'labels': ['label1', 'label2', 'label3']},
# 'id': '12345',
# 'key': 'XYZ-123'},
# {'fields': {'labels': ['label1', 'label2']}, 'id': '67890', 'key': 'ABS-789'}]
from collections import Counter
c = Counter(el for d in lst for el in d['fields']['labels'])
df = pd.DataFrame(sorted(c.items()), columns=['label', 'count'])
# label count
# 0 label1 2
# 1 label2 2
# 2 label3 1