我不熟悉将 python 与数据集一起使用,并且尝试排除在输出中显示的列(“id”)。想知道如何使用描述()和排除函数来解决这个问题。
describe
适用于数据类型。您可以根据数据类型而不是根据列包含或排除。如果您的列 id
具有唯一的数据类型,则
df.describe(exclude=[datatype])
或者如果您只想删除
describe
中的列,请尝试此
cols = set(df.columns) - {'id'}
df1 = df[list(cols)]
df1.describe()
TaDa 完成了。有关
describe
的更多信息,请点击 此处
您可以通过切片原始 DF 并删除“id”列来做到这一点。一种方法是通过
.iloc
。假设“id”列是 DF 中的第一列,那么,您可以这样做:
df.iloc[:,1:].describe()
第一个冒号代表行,第二个冒号代表列。
虽然有人回复了官方文档中给出的示例,这已经足够了,但我只想添加这个,因为它可能会帮助一些人:
如果您的 DataFrame 很大(假设有 100 列),删除一两个列可能不是一个好主意(不够),相反,创建一个较小的 DataFrame 来保存您感兴趣的内容并从那里开始。
删除 2+ 列的示例:
table_of_columns_you_dont_want = set(your_bigger_data_frame.colums) = {'column_1', 'column_2','column3','etc'}
your_new_smaller_data_frame = your_new_smaller_data_frame[list[table_of_columns_you_dont_want]]
your_new_smaller_data_frame.describe()
IF你的DataFrame是中/小型,你已经知道每一列,你只需要几列,只需创建一个新的DataFrame,然后应用describe():
我将给出一个读取 .csv 文件的示例,然后读取该 DataFrame 的一小部分,其中仅包含您需要的内容:
df = pd.read_csv('.\docs\project\file.csv')
df = [['column_1','column_2','column_3','etc']]
df.describe()
您还可以通过删除不相关的列来完成此操作。
例如 - 如果您不想看到列
id
和 CustomerID
的描述函数,因为它们不会提供任何相关信息,您可以简单地删除它们。
columns_to_describe = df.drop(columns=['id','CustomerID']).columns
df[columns_to_describe].describe()
希望有帮助。
谢谢
使用
output.describe(exclude=['id'])