如何在 Python Polars 上压缩 2 个列表列?

问题描述 投票:0回答:1

我有一个包含 A、B 和 C 列的数据框,其中 B 和 C 是列表列。

df = pl.DataFrame({
    'A': ['t', 'u', 'v'],
    'B': [['a', 'v', 'x'], ['f', 'g', 'h'], ['p', 'o', 'i']],
    'C': [[11, 12, 14], [41, 42, 43], [66, 77, 88]]
})

我需要如下组合:

Original:
┌─────┬─────────────────┬──────────────┐
│ A   ┆ B               ┆ C            │
│ --- ┆ ---             ┆ ---          │
│ i64 ┆ list[str]       ┆ list[i64]    │
╞═════╪═════════════════╪══════════════╡
│ t   ┆ ["a", "v", "x"] ┆ [11, 12, 14] │
│ u   ┆ ["f", "g", "h"] ┆ [41, 42, 43] │
│ v   ┆ ["p", "o", "i"] ┆ [66, 77, 88] │
└─────┴─────────────────┴──────────────┘

Final: 
┌─────┬─────────────────────────────────────┐
│ A   ┆ zip(B,C)                            │
│ --- ┆ ---                                 │
│ i64 ┆ object(?)                           │
╞═════╪═════════════════════════════════════╡
│ t   ┆ [('a', 11), ('v', 12), ('x', 14) ]  │
│ u   ┆ [('f', 41), ('g', 42), ('h', 43) ]  │
│ v   ┆ [('p', 66), ('o', 77), ('i', 88) ]  │
└─────┴─────────────────────────────────────┘

仅使用 Python,我会做一个

zip()
,但这种方法无法扩展。 我考虑过在列表上使用
explode()
,然后将其转换为字符串并使用分隔符连接结果,但这感觉不对,并且我会遇到问题,无法将列
A
上的数据与分解结果正确相关.

还有其他方法可以达到这个结果吗?

python-polars
1个回答
4
投票

在 Polars 中,您可以使用结构体来实现此目的。

(
    df.explode("B", "C")
    .select("A", pl.struct("B", "C").alias("struct"))
    .group_by("A")
    .agg("struct")
)
shape: (3, 2)
┌─────┬────────────────────────────────┐
│ A   ┆ struct                         │
│ --- ┆ ---                            │
│ str ┆ list[struct[2]]                │
╞═════╪════════════════════════════════╡
│ t   ┆ [{"a",11}, {"v",12}, {"x",14}] │
│ u   ┆ [{"f",41}, {"g",42}, {"h",43}] │
│ v   ┆ [{"p",66}, {"o",77}, {"i",88}] │
└─────┴────────────────────────────────┘

结果是一个结构体列表。

© www.soinside.com 2019 - 2024. All rights reserved.