我想知道在scikit-learn中是否存在处理nan / null值的分类器。我以为随机森林回归器处理这个,但是当我打电话给predict
时我得到了一个错误。
X_train = np.array([[1, np.nan, 3],[np.nan, 5, 6]])
y_train = np.array([1, 2])
clf = RandomForestRegressor(X_train, y_train)
X_test = np.array([7, 8, np.nan])
y_pred = clf.predict(X_test) # Fails!
我是否可以使用缺少值的任何scikit-learn算法调用预测?
编辑。现在我想到这一点,这是有道理的。这在训练期间不是问题,但是当你预测变量为空时如何分支?也许你可以分开两种方式并平均结果?只要距离函数忽略空值,k-NN似乎应该可以正常工作。
编辑2(更老,更聪明)一些gbm库(例如xgboost)正是为了这个目的而使用三元树而不是二叉树:2个孩子用于是/否决定,1个孩子用于缺失决策。 sklearn是using a binary tree
我做了一个示例,其中包含训练和测试集中的缺失值
我刚刚选择了使用SimpleImputer
类替换缺失数据的策略。还有其他策略。
from __future__ import print_function
import numpy as np
from sklearn.ensemble import RandomForestClassifier
from sklearn.impute import SimpleImputer
X_train = [[0, 0, np.nan], [np.nan, 1, 1]]
Y_train = [0, 1]
X_test_1 = [0, 0, np.nan]
X_test_2 = [0, np.nan, np.nan]
X_test_3 = [np.nan, 1, 1]
# Create our imputer to replace missing values with the mean e.g.
imp = SimpleImputer(missing_values=np.nan, strategy='mean')
imp = imp.fit(X_train)
# Impute our data, then train
X_train_imp = imp.transform(X_train)
clf = RandomForestClassifier(n_estimators=10)
clf = clf.fit(X_train_imp, Y_train)
for X_test in [X_test_1, X_test_2, X_test_3]:
# Impute each test item, then predict
X_test_imp = imp.transform(X_test)
print(X_test, '->', clf.predict(X_test_imp))
# Results
[0, 0, nan] -> [0]
[0, nan, nan] -> [0]
[nan, 1, 1] -> [1]
有时缺失值根本不适用。施加它们是没有意义的。在这些情况下,您应该使用可以处理缺失值的模型。 Scitkit-learn的模型无法处理缺失值。 XGBoost可以。
正如在this article中提到的,scikit-learn的决策树和KNN算法不是(yet)足够强大,可以处理缺失值。如果插补没有意义,就不要这样做。
请记住,这是一个简单的例子
考虑具有多排汽车的数据集(“Danho Diesel”,“Estal Electric”,“Hesproc Hybrid”)和具有其属性的列(重量,最高速度,加速度,功率输出,二氧化硫排放,范围)。
电动汽车不产生废气 - 所以Estal Electric的二氧化硫排放应该是NaN
值(缺失)。你可以说它应该设置为0 - 但电动汽车不能产生二氧化硫。输入值会破坏您的预测。
正如在this article中提到的,scikit-learn的决策树和KNN算法不是(yet)足够强大,可以处理缺失值。如果插补没有意义,就不要这样做。
如果您使用的是DataFrame,则可以使用fillna
。在这里,我用该列的平均值替换了缺失的数据。
df.fillna(df.mean(), inplace=True)