如何有效地阅读和处理Python中的大型CSV文件? 我有一个我需要在Python中阅读和处理的大型CSV文件(超过2GB)。使用pandas.read_csv()会导致过多的内存和崩溃。 哪些有效的方法是: 在块中读取文件? pr ...

问题描述 投票:0回答:1

程序每个块而不将所有内容都加载到内存中? 处理大型数据集时优化性能吗?

您的曲目块在正确的轨道上,但是有更有效的方法可以处理Python中的大型CSV文件。以下是一些优化的方法:

用大块大片熊猫(优化) 您的方法是有效的,但是您可以通过仅处理必要的列并使用USECOL和DTYPE来减少内存使用量来加快速度: 导入大熊猫作为pd

spring
1个回答
0
投票
chunksize =100000

dtype = {'column1':'int32','column2':'float32'}#指定dtypes以保存内存

    对于pd.read_csv中的块('groun_file.csv',chunksize = chunksize,usecols = ['column1','column2'],dtype = dtype):
  1. #过程块 打印(Chunk.head())
  2. 您应该选择哪种方法?

如果您喜欢本地熊猫,请使用块。 如果需要并行处理,请使用DASK。 如果您想以更好的速度替换大熊猫,请使用modin。 使用VAEX或PYARROW进行低内存操作。 希望这有帮助! 🚀


最新问题
© www.soinside.com 2019 - 2025. All rights reserved.