SVR/SVM 输出预测彼此非常相似，但与真实值相差甚远

Question

主要思想是根据输入特征预测 2 个目标输出。

输入特征已使用 sklearn 中的 Standardscaler() 进行缩放。 X_train 的大小为 (190 x 6)，Y_train = (190 x 2)。 X_test 为 (20 x 6)，Y_test = (20x2)
线性和 rbf 内核还利用 GridsearchCV 来找到最佳的 C（线性）、gamma 和 C（'rbf'）
[问题]我在线性和 rbf 内核上利用 MultiOutputRegressor 执行 SVR，但是预测输出彼此非常相似（不完全是恒定预测）并且与 y 的真实值相差甚远。
下面是散点图代表 Y 真实值的图。第一张图片对应于第一个目标 Y[:,0] 的结果。而第二张图片是第二个目标，Y[:,1].
我必须调整我的目标输出吗？还有其他模型可以帮助提高测试准确性吗？
我尝试过随机森林回归器并执行调整，测试精度与我使用 SVR 得到的结果大致相似。（以下结果来自 SVR）

最佳参数：{'estimator__C': 1}
MAE：[18.51151192 9.604601]#来自线性内核

最佳参数（rbf）：{'estimator__C'：1，'estimator__gamma'：1e-09} MAE (rbf): [17.80482033 9.39780134] #来自 rbf 内核

---------------- 代码-----------------------------------------

import numpy as np
from numpy import load

from sklearn.model_selection import train_test_split

from sklearn.svm import SVR
from sklearn.multioutput import MultiOutputRegressor
import matplotlib.pyplot as plt

from sklearn.model_selection import GridSearchCV
from sklearn.metrics import mean_absolute_error 
from sklearn.model_selection import RepeatedKFold
rkf = RepeatedKFold(n_splits=5, n_repeats=3)


#input features - HR, HRV, PTT, breathing_rate, LASI, AI
X = load('200_patient_input_scaled.npy')
#Output features - SBP, DBP
Y = load('200_patient_output_raw.npy')

X_train, X_test, Y_train, Y_test = train_test_split(X, Y, test_size=0.095, random_state = 43)

epsilon = 0.1

#--------------------------- Linear SVR kernel Model ------------------------------------------------------

linear_svr = SVR(kernel='linear', epsilon = epsilon)

multi_output_linear_svr = MultiOutputRegressor(linear_svr)
#multi_output_linear_svr.fit(X_train, Y_train) #just to see the output

#GridSearch - find the best C
grid = {'estimator__C': [1,10,10,100,1000] }
grid_linear_svr = GridSearchCV(multi_output_linear_svr, grid, scoring='neg_mean_absolute_error', cv=rkf, refit=True)
grid_linear_svr.fit(X_train, Y_train)

#Prediction
Y_predict = grid_linear_svr.predict(X_test)


print("\nBest parameter:", grid_linear_svr.best_params_ )
print("MAE:", mean_absolute_error(Y_predict,Y_test, multioutput='raw_values'))



#-------------------------- RBF SVR kernel Model --------------------------------------------------------
rbf_svr = SVR(kernel='rbf', epsilon = epsilon)
multi_output_rbf_svr = MultiOutputRegressor(rbf_svr)

#Grid search - Find best combination of C and gamma
grid_rbf = {'estimator__C': [1,10,10,100,1000], 'estimator__gamma': [1e-9, 1e-8, 1e-7, 1e-6, 1e-5, 1e-4, 1e-3, 1e-2] }
grid_rbf_svr = GridSearchCV(multi_output_rbf_svr, grid_rbf, scoring='neg_mean_absolute_error', cv=rkf, refit=True)

grid_rbf_svr.fit(X_train, Y_train)

#Prediction
Y_predict_rbf = grid_rbf_svr.predict(X_test)


print("\nBest parameter (rbf):", grid_rbf_svr.best_params_ )
print("MAE (rbf):", mean_absolute_error(Y_predict_rbf,Y_test, multioutput='raw_values'))


#Plotting
plot_y_predict = Y_predict_rbf[:,1]
plt.scatter( np.linspace(0, 20, num = 20), Y_test[:,1], color = 'red')
plt.plot(np.linspace(0, 20, num = 20), plot_y_predict)

Answer 1

一个常见的错误是，当人们使用 StandardScaler 时，他们沿着错误的数据轴使用它。您可以缩放所有数据，或者逐行而不是逐列缩放，请确保您做得正确！为了确定，我会手动执行此操作，因为否则我认为它需要适合每个功能的不同 StandardScaler。

[响应/编辑]：我认为这只是否定了 StandardScaler 通过反转应用程序所做的事情。我并不完全确定 StandardScaler 的行为，我只是根据经验说这一切，并且在缩放多个特征数据时遇到困难。如果我是你（例如 MInMax 缩放），我会更喜欢这样的东西：

columnsX = X.shape[1]
for i in range(columnsX):

    X[:, i] = (X[:, i] - X[:, i].min()) / (X[:, i].max() - X[:, i].min())

SVR/SVM 输出预测彼此非常相似，但与真实值相差甚远

问题描述投票：0回答：1

1个回答

最新问题

SVR/SVM 输出预测彼此非常相似，但与真实值相差甚远

问题描述 投票：0回答：1

1个回答

最新问题

问题描述投票：0回答：1