i我想知道Python中是否有一个与
scipy.linalg.lstsq
的功能相同的工作,但使用“最小绝对偏差”回归而不是“最小二乘”回归(OLS)。我想使用L1
规范,而不是L2
规范。
实际上,我有3D点,我想要它们最合适的平面。常见的方法是从最少的正方形方法,例如这种githublink。但是,众所周知,这并不总是能带来最佳拟合度,尤其是当我们在数据集中有闯入者时。最好计算最小绝对偏差。两种方法之间的差异被更多地解释了。
由于它是一个Ax = b
矩阵方程,因此不会通过诸如MAD之类的函数来求解,并且需要循环以最大程度地减少结果。我想知道是否有人知道Python中的相关功能 - 可能是在线性代数软件包中 - 可以计算“最小绝对偏差”回归?
使用
scipy.optimize.minimize
和自定义cost_function
from scipy.optimize import minimize
import numpy as np
定义自定义成本函数(以及用于获取拟合值的便利包装),
def fit(X, params):
return X.dot(params)
def cost_function(params, X, y):
return np.sum(np.abs(y - fit(X, params)))
,然后,如果您有一些
X
(设计矩阵)和y
output = minimize(cost_function, x0, args=(X, y))
y_hat = fit(X, output.x)
where
x0
是对最佳参数的一些合适的初始猜测(您可以在此处获取@Jamesphillips的建议,并使用OLS方法中的拟合参数)。在任何情况下,当测试以某种人为的例子进行测试时,
X = np.asarray([np.ones((100,)), np.arange(0, 100)]).T
y = 10 + 5 * np.arange(0, 100) + 25 * np.random.random((100,))
我发现,
fun: 629.4950595335436
hess_inv: array([[ 9.35213468e-03, -1.66803210e-04],
[ -1.66803210e-04, 1.24831279e-05]])
jac: array([ 0.00000000e+00, -1.52587891e-05])
message: 'Optimization terminated successfully.'
nfev: 144
nit: 11
njev: 36
status: 0
success: True
x: array([ 19.71326758, 5.07035192])
和,
fig = plt.figure()
ax = plt.axes()
ax.plot(y, 'o', color='black')
ax.plot(y_hat, 'o', color='blue')
plt.show()
以蓝色的拟合值和黑色的数据。
您可以使用scipy.minimimize函数解决问题。您必须设置要最小化的功能(在我们的情况下,具有Z = AX + By + C的平面)和错误函数(L1 Norm),然后以一些起始值运行最小化器。
import numpy as np
import scipy.linalg
from scipy.optimize import minimize
from mpl_toolkits.mplot3d import Axes3D
import matplotlib.pyplot as plt
def fit(X, params):
# 3d Plane Z = aX + bY + c
return X.dot(params[:2]) + params[2]
def cost_function(params, X, y):
# L1- norm
return np.sum(np.abs(y - fit(X, params)))
我们生成3D点
# Generating 3-dim points
mean = np.array([0.0,0.0,0.0])
cov = np.array([[1.0,-0.5,0.8], [-0.5,1.1,0.0], [0.8,0.0,1.0]])
data = np.random.multivariate_normal(mean, cov, 50)
output = minimize(cost_function, [0.5,0.5,0.5], args=(np.c_[data[:,0], data[:,1]], data[:, 2]))
y_hat = fit(np.c_[data[:,0], data[:,1]], output.x)
X,Y = np.meshgrid(np.arange(min(data[:,0]), max(data[:,0]), 0.5), np.arange(min(data[:,1]), max(data[:,1]), 0.5))
XX = X.flatten()
YY = Y.flatten()
# # evaluate it on grid
Z = output.x[0]*X + output.x[1]*Y + output.x[2]
fig = plt.figure(figsize=(10,10))
ax = fig.gca(projection='3d')
ax.plot_surface(X, Y, Z, rstride=1, cstride=1, alpha=0.2)
ax.scatter(data[:,0], data[:,1], data[:,2], c='r')
plt.show()
注:我已经使用了先前的响应代码,而从github使用了
代码
基于公式