给出以下csv文件:
01;blue;brown;black
02;glass;rock;paper
03;pigeon;squirel;shark
我的目标是在第一个位置替换包含'02'的(唯一)线。
我写了这段代码:
with open("csv", 'r+', newline='', encoding='utf-8') as csvfile, open('csvout', 'w', newline='', encoding='utf-8') as out:
reader = csv.reader(csvfile, delimiter=';')
writer = csv.writer(out, delimiter=';')
for row in reader:
if row[0] != '02':
writer.writerow(row)
else:
writer.writerow(['02', 'A', 'B', 'C'])
但是将整个CSV重写为另一个似乎不是最有效的方法,特别是对于大文件:
我写了第二段代码,似乎回答了这两个问题:
with open("csv", 'r+', newline='', encoding='utf-8') as csvfile:
content = csvfile.readlines()
for index, row in enumerate(content):
row = row.split(';')
if row[2] == 'rock':
tochange = index
break
content.pop(tochange)
content.insert(tochange, '02;A;B;C\n')
content = "".join(content)
csvfile.seek(0)
csvfile.truncate(0) # Erase content
csvfile.write(content)
您是否同意第二种解决方案更有效?你有任何进步或更好的方法吗?
编辑:行中的字符数可以变化。
编辑2:如果我不想使用填充,我显然有义务阅读和重写所有内容。一个可能的解决方案是类似数据库的解决方案,我将在未来考虑它。
如果我不得不在这两种解决方案之间做出选择,哪一种解决方案最佳?
由于行中的特征可能不同,我要么必须读/写整个文件,要么;正如@tobias_k所说,使用seek()回到线的开头,并且:
我想避免使用填充,所以我使用time.perf_counter()来测量两个代码的执行时间,第二个解决方案似乎(几乎2 *)更快(CSV为10 000行,匹配在第6 000)。
一种替代方法是迁移到关系数据库。