向 pd.DataFrame 子类添加列表属性

问题描述 投票:0回答:1

我正在使用 pandas 的 DataFrame 类的子类。子类需要有一个列表属性。这是一个例子:

import pandas as pd

class MyDataFrame(pd.DataFrame):
    def __init__(self, data, colors, *args, **kwargs):
        m = pd.DataFrame(data)
        super().__init__(m, *args, **kwargs)
        self.colors = colors

my_df = MyDataFrame(
    {
        "name": ["Fred", "Wilma"],
        "age": [42, 38]
    },
    colors=["red", "yellow", "green"])

这让我在

self.colors = colors
上收到以下警告:

用户警告:Pandas 不允许通过新的属性名称创建列 - 请参阅 https://pandas.pydata.org/pandas-docs/stable/indexing.html#attribute-access

问题似乎在于 DataFrame 将列标题视为属性并将“

self.colors = colors
”行解释为向 DataFrame 添加列的请求,但它非常合理地拒绝这样做。我尝试添加一个设置器但没有效果。我还尝试将属性分配移至
super().__init__
调用上方,但最终导致无限递归。我可以做什么来解决这个问题?

python pandas
1个回答
0
投票

您可以使用其

attrs
属性将任意数据(有效的元数据)添加到 DataFrame,但文档确实附带了以下警告:

attrs 是实验性的,可能会在没有警告的情况下发生变化。

也就是说,这应该有效:

import pandas as pd

class MyDataFrame(pd.DataFrame):
    def __init__(self, data, colors, *args, **kwargs):
        # as was mentioned, you don't really need the intermediate DataFrame 'm'
        super().__init__(data, *args, **kwargs)
        super().attrs['colors'] = colors


my_df = MyDataFrame(
    {
        "name": ["Fred", "Wilma"],
        "age": [42, 38]
    },
    colors=["red", "yellow", "green"])


print(my_df)
print(my_df.attrs['colors'])
    name  age
0   Fred   42
1  Wilma   38
['red', 'yellow', 'green']

但是,我认为我同意@roganjosh - 不直接子类化

DataFrame
可能会更好。

© www.soinside.com 2019 - 2024. All rights reserved.