如何阅读众多csv文件并计算每个文件的boxplot统计数据?

问题描述 投票:0回答:1

我有一个包含大约10个csv文件的目录,所有大型数据集都有50M +行。我想创建一个for循环

  • 一个接一个地阅读它们
  • 使用每个数据集的分位数函数计算boxplot统计数据
  • 将这些统计信息连接到一个数据帧

我怎么能这样做?

这是我期望得到的df看起来的方式,包括特征和概率分位数的列。

features  25%   50%   75%
Age       24     28    35
Height    161   175   194
python pandas csv boxplot quantile
1个回答
0
投票

探索pandas read_csvpandas quantile的功能。

例如,您可能具有以下内容:

quantiles = [.25, .50, .75]
results = OrderedDict([(x,[]) for x in quantiles])
columns = ["age", "height"]

for csv_file in os.listdir(file_path):
    df = pd.read_csv(os.path.join(file_path, csv_file))
    for column in columns:
        for value in quantiles:
            results[value].append(df[column].quantile(value))

result_df = pd.DataFrame(data=results, index=columns)

在读取文件时,您可能需要使用chunksize参数来处理内存管理。

© www.soinside.com 2019 - 2024. All rights reserved.