向 pd.DataFrame 子类添加列表属性

Question

我正在使用 pandas 的 DataFrame 类的子类。子类需要有一个列表属性。这是一个例子：

import pandas as pd

class MyDataFrame(pd.DataFrame):
    def __init__(self, data, colors, *args, **kwargs):
        m = pd.DataFrame(data)
        super().__init__(m, *args, **kwargs)
        self.colors = colors

my_df = MyDataFrame(
    {
        "name": ["Fred", "Wilma"],
        "age": [42, 38]
    },
    colors=["red", "yellow", "green"])

这让我在

self.colors = colors

上收到以下警告：

用户警告：Pandas 不允许通过新的属性名称创建列 - 请参阅 https://pandas.pydata.org/pandas-docs/stable/indexing.html#attribute-access

问题似乎在于 DataFrame 将列标题视为属性并将“

self.colors = colors

”行解释为向 DataFrame 添加列的请求，但它非常合理地拒绝这样做。我尝试添加一个设置器但没有效果。我还尝试将属性分配移至

super().__init__

调用上方，但最终导致无限递归。我可以做什么来解决这个问题？

Answer 1

您可以使用其

attrs

属性将任意数据（有效的元数据）添加到 DataFrame，但文档确实附带了以下警告：

attrs 是实验性的，可能会在没有警告的情况下发生变化。

也就是说，这应该有效：

import pandas as pd

class MyDataFrame(pd.DataFrame):
    def __init__(self, data, colors, *args, **kwargs):
        # as was mentioned, you don't really need the intermediate DataFrame 'm'
        super().__init__(data, *args, **kwargs)
        super().attrs['colors'] = colors


my_df = MyDataFrame(
    {
        "name": ["Fred", "Wilma"],
        "age": [42, 38]
    },
    colors=["red", "yellow", "green"])


print(my_df)
print(my_df.attrs['colors'])

    name  age
0   Fred   42
1  Wilma   38
['red', 'yellow', 'green']

但是，我认为我同意@roganjosh - 不直接子类化

DataFrame

可能会更好。

向 pd.DataFrame 子类添加列表属性

问题描述投票：0回答：1

1个回答

最新问题

向 pd.DataFrame 子类添加列表属性

问题描述 投票：0回答：1

1个回答

最新问题

问题描述投票：0回答：1