如何在python中更快地操作大文件？

Question

我必须循环访问30GB的文件（其中有30个），500mb大约需要15分钟。如何知道我逐行循环每一行，我如何优化性能？

蟒蛇

import json
import os

def file_subreddit_comments(rfname,wfname):
    with open(rfname, 'r', encoding="utf8") as rf:
        with open(wfname, 'w', encoding="utf-8") as wf:
            for i, l in enumerate(rf):
                d = json.loads(l)
                link_id = d["link_id"]
                for lsi in list_submission_id:
                    constructed_link_id = "t3_" + lsi
                    if link_id == constructed_link_id:
                        wf.write(l)                    

defaultFilePath = r'D:\Users\Jonathan\Desktop\Reddit Data\Run Comments\\'
directory = os.fsencode(defaultFilePath)

list_submission_id = []
submission_id_file = r'D:\Users\Jonathan\Desktop\Reddit Data\Manipulated Data-09-03-19-Final\UniqueIDSubmissionsList-09-03-2019.txt'
with open(submission_id_file, "r", encoding="utf8") as sif:
    for i, l in enumerate(sif):
        list_submission_id.append(l.rstrip())

for file in os.listdir(directory):
     filename = os.fsdecode(file)
     comment_path_read = defaultFilePath + filename
     comment_path_save = defaultFilePath + filename + "_ext_com.txt"
     file_subreddit_comments(comment_path_read,comment_path_save)     
     print(filename)

submission_id_file是一个列表，其中包含大约1000个关键字，如果constructured_link_id的值在列表中，则需要验证每个关键字。

Answer 1

多线程和多处理可能是Thom上面提出的解决方案。好吧，至少它缩短了执行任务的时间。 12个内核=同时操作12个文件。

Answer 2

如果你在旋转盘片硬盘上这样做，你可能会遇到寻找时间问题。尝试将所有数据写入内存对象，然后在结束时将其全部转储到文件中。

我不能100％肯定这是问题，但它只是一个理论。虽然容易尝试。

编辑：刚刚发现另一个大加速。

使list_submission_id成为一个集合

list_submission_id = set()
list_submission_id.add("t3_" + l.rstrip())

然后使用以下方法检查会员

link_id = d["link_id"]
if link_id in list_submission_id :
    wf.write(l)

与我的其他建议不同，这肯定会加快速度。

如何在python中更快地操作大文件？

问题描述投票：1回答：2

2个回答

最新问题

如何在python中更快地操作大文件？

问题描述 投票：1回答：2

2个回答

最新问题

问题描述投票：1回答：2