在scikit-learn中平均多个随机森林模型

问题描述投票：1回答：1

我有一个非常大的数据集，并希望在数据集的分区上训练几个随机森林模型，然后平均这些模型以得出我的最终分类器。由于随机森林是一种集合方法，这是一种直觉上合理的方法，但我不确定是否可以使用scikit-learn的随机森林分类器。有任何想法吗？

我也愿意使用另一个包中的随机森林分类器，只是不知道在哪里看。

python machine-learning scikit-learn random-forest

1个回答

2
投票

这是我能想到的：

Pandas + Scikit：您可以自定义自己的bootstrap算法，您可以从整个数据集中随机读取合理大小的样本，并在其上放置scikit树（如果您在每个节点随机化功能，那将是完美的）。然后腌制每棵树，最后将它们平均出来以提出你的随机森林。
Graphlab + SFrame Turi拥有自己的大数据库（SFrame，类似于Pandas）和机器学习库（graphlab，非常类似于scikit）。环境很美。
对某些人来说，Blaze-Dask可能会有一些更陡峭的学习曲线，但这将是一个有效的解决方案。
你可以使用内存映射的numpy选项，但它会比前三个选项更麻烦，而且我从来没有这样做过，所以我会在这里留下这个选项。

总而言之，我会选择2。

最新问题

© www.soinside.com 2019 - 2024. All rights reserved.