问题
我正在读取与特定模式匹配的多个csv,将它们连接成数据帧并在帧内进行一些处理(例如填充日期时间间隔,构建平均值等)。在下一步中,我尝试将数据帧取消堆叠,并将它们写入单独的csv文件(将它们命名为导入的文件+扩展名)到它们从中导入的同一目录。连接处理的数据框如下所示:
Datetime Value
0 2017-03-03 12:15:00 2.3
1 2017-03-03 12:30:00 2.1
...
n 2017-12-19 12:15:00 5.3
0 2017-05-03 12:15:00 1.3
1 2017-05-03 12:30:00 3.1
...
m 2017-12-19 12:15:00 7.3
...
我的代码到目前为止:
import os
import glob
import pandas as pd
pattern = "*whatever*.csv"
directory_path = "mypath"
files = glob.iglob(directory_path + '/**/' + pattern, recursive=True)
def get_files():
dfs = (pd.read_csv(filename)
for filename in files)
df = pd.concat(dfs)
def process_df():
.... # do some processing
return processed_df
'''this part of code does basically what i want'''
def write_to_csv()
dict_ = {}
for filename in files:
dict_[file] = pd.read_csv(file)
for file in dict_:
with open(os.path.splitext(file)[0] + "_gaps_filled.csv", 'w') as f:
dict_[filename].to_csv(f, sep=',', index=False, header=False)
def write_to_csv()
基本上希望我不想连接/处理数据。
题
如何拆分/取消堆叠连接的已处理数据帧,将正确的文件名分配给未堆叠/拆分的块并将其写入循环中的csv文件?
*期望的结果
将匹配的csv文件读入dataframe ---> process dataframe --->将处理后的块写入相应的csv文件名和目录
a.csv a some data a_pro.csv
b.csv to df-------> some data process--->[] to_csv--> b_pro.csv
c.csv ... c_pro.csv
b some data
some data
...
c some data
some data
...
我的方法
我尝试设置密钥(pd.concat(dfs, keys=filenames
),以便我可以将文件名分配给连接数据帧中的相应块。但在我的def process_df()
函数中使用groupby
方法,所以键“丢失”。
一个透明的解决方案是在处理过程中简单地添加一个带有文件名的列。
然后,当您想要输出到单独的文件时,只需按文件名过滤并相应地输出。
您的代码可能如下所示:
dfs = {i: pd.read_csv(i).assign(filename=i) for i in filenames}
df = pd.concat(dfs.values(), ignore_index=True)
# do your processing here
for k in filenames:
df[df['filename'] == k].drop('filename', 1).to_csv(k+'pro', index=False)