使用python和numpy加载文件的最快方法是什么?

问题描述 投票:1回答:1

我想训练一个模型,我有一个很大的训练数据集。它的大小超过20GB。但是当我尝试阅读它时,花了很长时间。我的意思是将它加载到内存中。

with open(file_path, newline='', encoding='utf-8') as f:
    reader = csv.reader(f)
    for i,row in enumerate(islice(reader,0,1)):
        train_data = np.array(makefloat(row))[None,:]
    for i,row in enumerate(reader):
        train_data = np.vstack((train_data,np.array(makefloat(row))[None,:]))

它每行有43个浮点数。

花了这么长时间,我测试了它只有10万行,花了20分钟。

我想我做错了。我怎样才能让它更快?

python numpy keras io bigdata
1个回答
0
投票

它不好读取整个文件。您可以使用像Dask这样的内容,它将以块的形式读取您的文件并且速度更快。 Dask

© www.soinside.com 2019 - 2024. All rights reserved.