程序每个块而不将所有内容都加载到内存中? 处理大型数据集时优化性能吗?
您的曲目块在正确的轨道上,但是有更有效的方法可以处理Python中的大型CSV文件。以下是一些优化的方法:
用大块大片熊猫(优化) 您的方法是有效的,但是您可以通过仅处理必要的列并使用USECOL和DTYPE来减少内存使用量来加快速度: 导入大熊猫作为pd
dtype = {'column1':'int32','column2':'float32'}#指定dtypes以保存内存
如果您喜欢本地熊猫,请使用块。
如果需要并行处理,请使用DASK。
如果您想以更好的速度替换大熊猫,请使用modin。
使用VAEX或PYARROW进行低内存操作。
希望这有帮助! 🚀