我有一个包含 A、B 和 C 列的数据框,其中 B 和 C 是列表列。
df = pl.DataFrame({
'A': ['t', 'u', 'v'],
'B': [['a', 'v', 'x'], ['f', 'g', 'h'], ['p', 'o', 'i']],
'C': [[11, 12, 14], [41, 42, 43], [66, 77, 88]]
})
我需要如下组合:
Original:
┌─────┬─────────────────┬──────────────┐
│ A ┆ B ┆ C │
│ --- ┆ --- ┆ --- │
│ i64 ┆ list[str] ┆ list[i64] │
╞═════╪═════════════════╪══════════════╡
│ t ┆ ["a", "v", "x"] ┆ [11, 12, 14] │
│ u ┆ ["f", "g", "h"] ┆ [41, 42, 43] │
│ v ┆ ["p", "o", "i"] ┆ [66, 77, 88] │
└─────┴─────────────────┴──────────────┘
Final:
┌─────┬─────────────────────────────────────┐
│ A ┆ zip(B,C) │
│ --- ┆ --- │
│ i64 ┆ object(?) │
╞═════╪═════════════════════════════════════╡
│ t ┆ [('a', 11), ('v', 12), ('x', 14) ] │
│ u ┆ [('f', 41), ('g', 42), ('h', 43) ] │
│ v ┆ [('p', 66), ('o', 77), ('i', 88) ] │
└─────┴─────────────────────────────────────┘
仅使用 Python,我会做一个
zip()
,但这种方法无法扩展。
我考虑过在列表上使用 explode()
,然后将其转换为字符串并使用分隔符连接结果,但这感觉不对,并且我会遇到问题,无法将列 A
上的数据与分解结果正确相关.
还有其他方法可以达到这个结果吗?
在 Polars 中,您可以使用结构体来实现此目的。
(
df.explode("B", "C")
.select("A", pl.struct("B", "C").alias("struct"))
.group_by("A")
.agg("struct")
)
shape: (3, 2)
┌─────┬────────────────────────────────┐
│ A ┆ struct │
│ --- ┆ --- │
│ str ┆ list[struct[2]] │
╞═════╪════════════════════════════════╡
│ t ┆ [{"a",11}, {"v",12}, {"x",14}] │
│ u ┆ [{"f",41}, {"g",42}, {"h",43}] │
│ v ┆ [{"p",66}, {"o",77}, {"i",88}] │
└─────┴────────────────────────────────┘
结果是一个结构体列表。