我编写了一个函数,它迭代文件夹中的文件并选择某些数据。 .csv文件如下所示:
Timestamp Value Result
00-00-10 34567 1.0
00-00-20 45425
00-00-30 46773 0.0
00-00-40 64567
00-00-50 25665 1.0
00-01-00 25678
00-01-10 84358
00-01-20 76869 0.0
00-01-30 95830
00-01-40 87890
00-01-50 99537
00-02-00 85957 1.0
00-02-10 58840
它们保存在路径C:/Users/me/Desktop/myfolder/data
中,我在C:/Users/me/Desktop/myfolder
中编写了代码。功能(在@Daniel R的建议之后):
PATH = os.getcwd()+'\DATA\\'
def my_function(SourceFolder):
for i, file_path in enumerate(os.listdir(PATH)):
df = pd.read_csv(PATH+file_path)
mask = (
(df.Result == 1)
| (df.Result.ffill() == 1)
| ((df.Result.ffill() == 0)
& (df.groupby((df.Result.ffill() != df.Result.ffill().shift()).cumsum()).Result.transform('size') <= 100))
)
df = mask[df]
df = df.to_csv(PATH+'df_{}.csv'.format(i))
我最初的问题是:如何在不覆盖数据的情况下将每个df[mask]
保存到NewFolder
?上面的代码抛出AttributeError: 'str' object has no attribute 'Result'.
AttributeError Traceback (most recent call last)
<ipython-input-3-14c0dbaf5ace> in <module>()
----> 1 retrieve_data('C:/Users/me/Desktop/myfolder/DATA/*.csv')
<ipython-input-2-ba68702431ca> in my_function(SourceFolder)
6 (df.Result == 1)
7 | (df.Result.ffill() == 1)
----> 8 | ((df.Result.ffill() == 0)
9 & (df.groupby((df.Result.ffill() != df.Result.ffill().shift()).cumsum()).Result.transform('size') <= 100)))
10 df = df[mask]
C:\ProgramData\Anaconda3\lib\site-packages\pandas\core\generic.py in __getattr__(self, name)
4370 if self._info_axis._can_hold_identifiers_and_holds_name(name):
4371 return self[name]
-> 4372 return object.__getattribute__(self, name)
4373
4374 def __setattr__(self, name, value):
AttributeError: 'DataFrame' object has no attribute 'Result'
如果您的数据框架具有满足pandas DataFrame要求的结构:
import pandas as pd
import os
# Let '\DATA\\' be the directory where you keep your csv files, as a subdirectory of .getcwd()
PATH = os.getcwd()+'\DATA\\'
def my_function(source_folder):
for i, file_path in enumerate(os.listdir(PATH)):
df = pd.read_csv(PATH+file_path) # Use read_csv here, not DataFrame.
# You are still working with a filepath, not a dictionary.
mask = ( (df.Result == 1) | (df.Result.ffill() == 1) |
((df.Result.ffill() == 0) &
(df.groupby((df.Result.ffill() !=
df.Result.ffill().shift()).cumsum()).Result.transform('size') <= 100))
)
df = df[mask]
df = df.to_csv(PATH+'df_{}.csv'.format(i))
作为一般规则,您应该在提出类似于此问题的问题时提供您正在处理的数据样本。收到的答案可能对您不起作用。请使用dataframe / csv文件的示例和目录的模拟内容更新问题,以便我可以更新此答案。
如果srcPath与os.getcwd()不同,则在迭代文件之前,您可能必须计算完整路径或相对于.getcwd()的路径。
此外,可能没有必要调用上面的list(),无论是否使用它来测试代码。
最后,为什么需要两个变量作为my_function()的输入?据我所知,只需要一个变量,即.glob()中调用的srcPath,这不是传递给函数的变量,因此它必须是全局变量。
编辑:我已经根据对原始问题的修改以及对此帖子的评论更新了上面的代码。
编辑2:原来你对glob.glob()的调用没有产生你想要的东西。请参阅更新的代码。