我使用 R 版本 4.4.1 和 randomForest 4.7-1.1 来预测具有 16 个变量的二元结果,其中 4 个是数值变量,12 个是因子变量。该数据由 2600 个观测值组成。
我正在使用具有 25 个重复的 5 倍交叉验证 (CV) 方案来调整 mtry 和 ntree 的模型。
我在调整过程中收到以下错误消息,导致进程停止。 glm.fit(x = c(1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 中的错误: 'x' 中的 NA/NaN/Inf
从调整过程中,我可以识别导致问题的特定 CV 数据折叠。任何变量中均未观察到 NA、NaN 或 Inf。对变量分布及其与结果的关系进行检查后,我看不到问题折叠有任何问题,并且问题折叠和非问题折叠之间没有差异。
然后我使用问题折叠来运行逻辑回归,它收敛得很好。
我检查了是否有任何接近零方差的问题,但没有。
我还按照此处的建议关闭和打开 R 逻辑回归错误(glm.fit(x = c(1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, : NA/NaN/Inf in 'x') in r 但这并没有解决问题。
如果有人对可能发生的情况以及我如何检查和解决它有任何建议,我将不胜感激。
我刚刚从 randomForest 包维护者那里得知 randomForest 不会发出此错误消息。它似乎来自我调用的一些函数,这些函数位于 randomForest 交叉验证算法的下游。
感谢您抽出时间回复 IRTFM。
所以我们可以认为这篇文章已结束。