在scikit-learn中平均多个随机森林模型

问题描述 投票:1回答:1

我有一个非常大的数据集,并希望在数据集的分区上训练几个随机森林模型,然后平均这些模型以得出我的最终分类器。由于随机森林是一种集合方法,这是一种直觉上合理的方法,但我不确定是否可以使用scikit-learn的随机森林分类器。有任何想法吗?

我也愿意使用另一个包中的随机森林分类器,只是不知道在哪里看。

python machine-learning scikit-learn random-forest
1个回答
2
投票

这是我能想到的:

  1. Pandas + Scikit:您可以自定义自己的bootstrap算法,您可以从整个数据集中随机读取合理大小的样本,并在其上放置scikit树(如果您在每个节点随机化功能,那将是完美的)。然后腌制每棵树,最后将它们平均出来以提出你的随机森林。
  2. Graphlab + SFrame Turi拥有自己的大数据库(SFrame,类似于Pandas)和机器学习库(graphlab,非常类似于scikit)。环境很美。
  3. 对某些人来说,Blaze-Dask可能会有一些更陡峭的学习曲线,但这将是一个有效的解决方案。
  4. 你可以使用内存映射的numpy选项,但它会比前三个选项更麻烦,而且我从来没有这样做过,所以我会在这里留下这个选项。

总而言之,我会选择2。

© www.soinside.com 2019 - 2024. All rights reserved.