(希望这是一个适合此类问题的论坛,如果没有,请提出建议。)
XGBoost库与随机森林中梯度增强的性能如何?是否有任何基准数字比较两者?
我即将开始对数据集中的数百万个事件进行分类和回归方面的工作(至少6GB,高达TB)。
谢谢
您可以将数据下采样到几MB(确定数千个功能),并检查两种算法的性能。
尽管如此,XGBoost对大数据的效率会更高,因为已经做出努力将目标损失函数降低到两个导数。您可能会遇到大数据RF问题。例如,尝试使用R中的大数据运行RF,很快就会发现RF在大数据时并不是最好的。