我有6000万行和10列的数据集。我已经进行了一些预选剪切,转换了数据类型等等,以将我的数据集保存在pandas DataFrame中,它需要2GB的内存。
然后,当我尝试将模型拟合到我的数据上时,可以说逻辑回归,随机森林或使用xgboost cv函数,内核会死掉并重新启动。
我一直在关注内存消耗,我删除了旧的不需要的数据帧,列表等...
我不得不提到,我正在使用具有16 GB RAM的虚拟机,在这里我可以通过jupyter笔记本进程监视内存使用情况。我注意到,当我的进程消耗的内存超过16GB时,它们就会被服务器杀死。另外,如果我在具有8GB RAM的笔记本电脑上运行相同的代码,我的内核也会死掉。所以我的问题是如何限制sklearn方法或任何其他方法的内存使用?