如何有效地阅读和处理Python中的大型CSV文件？我有一个我需要在Python中阅读和处理的大型CSV文件（超过2GB）。使用pandas.read_csv（）会导致过多的内存和崩溃。哪些有效的方法是：在块中读取文件？ pr ...

问题描述投票：0回答：1

程序每个块而不将所有内容都加载到内存中？处理大型数据集时优化性能吗？

您的曲目块在正确的轨道上，但是有更有效的方法可以处理Python中的大型CSV文件。以下是一些优化的方法：

用大块大片熊猫（优化）您的方法是有效的，但是您可以通过仅处理必要的列并使用USECOL和DTYPE来减少内存使用量来加快速度：导入大熊猫作为pd

1个回答

0
投票

chunksize =100000

dtype = {'column1'：'int32'，'column2'：'float32'}＃指定dtypes以保存内存

＃过程块打印（Chunk.head（））

如果您喜欢本地熊猫，请使用块。如果需要并行处理，请使用DASK。如果您想以更好的速度替换大熊猫，请使用modin。使用VAEX或PYARROW进行低内存操作。希望这有帮助！ 🚀

最新问题

© www.soinside.com 2019 - 2025. All rights reserved.