我正在使用 pandas 的 DataFrame 类的子类。子类需要有一个列表属性。这是一个例子:
import pandas as pd
class MyDataFrame(pd.DataFrame):
def __init__(self, data, colors, *args, **kwargs):
m = pd.DataFrame(data)
super().__init__(m, *args, **kwargs)
self.colors = colors
my_df = MyDataFrame(
{
"name": ["Fred", "Wilma"],
"age": [42, 38]
},
colors=["red", "yellow", "green"])
这让我在
self.colors = colors
上收到以下警告:
用户警告:Pandas 不允许通过新的属性名称创建列 - 请参阅 https://pandas.pydata.org/pandas-docs/stable/indexing.html#attribute-access
问题似乎在于 DataFrame 将列标题视为属性并将“
self.colors = colors
”行解释为向 DataFrame 添加列的请求,但它非常合理地拒绝这样做。我尝试添加一个设置器但没有效果。我还尝试将属性分配移至 super().__init__
调用上方,但最终导致无限递归。我可以做什么来解决这个问题?
您可以使用其
attrs属性将任意数据(有效的元数据)添加到
DataFrame
,但文档确实附带了以下警告:
attrs 是实验性的,可能会在没有警告的情况下发生变化。
也就是说,这应该有效:
import pandas as pd
class MyDataFrame(pd.DataFrame):
def __init__(self, data, colors, *args, **kwargs):
# as was mentioned, you don't really need the intermediate DataFrame 'm'
super().__init__(data, *args, **kwargs)
super().attrs['colors'] = colors
my_df = MyDataFrame(
{
"name": ["Fred", "Wilma"],
"age": [42, 38]
},
colors=["red", "yellow", "green"])
print(my_df)
print(my_df.attrs['colors'])
name age
0 Fred 42
1 Wilma 38
['red', 'yellow', 'green']
但是,我认为我同意@roganjosh - 不直接子类化
DataFrame
可能会更好。