我正在尝试对2D数组值进行离群值分析,我的数据如下所示:
10.836126 6.342457 6.359280 4.865735 11.332891
13.228078 17.779455 11.021488 10.057800 13.371285
11.350769 15.052270 10.556633 7.909101 7.627935
11.841888 4.655980 8.363947 10.808192 12.761605
2.534398 6.189042 6.987835 8.412396 8.166305
根据我的任务要求,我需要消除所有那些与平均值相差1个标准差的值,我被困的点是:
该组的平均值= 9.9900 10.0057 10.0180 10.0051 9.9312和
标准偏差= 3.0257 3.0208 3.0119 2.9924 2.9868
我无法计算如何根据平均值和标准差来计算异常值。在这方面的任何帮助非常感谢。
P.S:我对Matlab和数据分析都很陌生。所以,请原谅我的任何无关信息。
通常,使用isoutlier function在Matlab上执行此操作。当method
参数作为mean
传递给函数调用时,用于检测异常值的均值方差方法(在您的问题中引用的方法)应用于观察:
method - 确定异常值'中位数'的方法(默认)| '意思'| '四分之一'| 'grubbs'| 'gesd'
'mean'对于与均值超过三个标准偏差的元素,返回true。这种方法比“中位数”更快但不太稳健。
不幸的是,它基于3
远离平均值的标准偏差,而不是仅仅距离均值的1
标准偏差。因此,必须实现自定义代码。鉴于观察矩阵A
,这应该工作正常:
m = nanmean(A,1);
s = nanstd(A,1);
lb = m - s;
ub = m + s;
is_outlier = ((A < lb) | (A > ub));
is_outlier
变量将是A
大小相同的逻辑值矩阵,其中true
值表示异常值:
A = [
10.836126 6.342457 6.359280 4.865735 11.332891;
13.228078 17.779455 11.021488 10.057800 13.371285;
11.350769 15.052270 10.556633 7.909101 7.627935;
11.841888 4.655980 8.363947 10.808192 12.761605;
2.534398 6.189042 6.987835 8.412396 8.166305
];
m = nanmean(A,1);
s = nanstd(A,1);
lb = m - s;
ub = m + s;
is_outlier = ((A < lb) | (A > ub))
is_outlier =
0 0 1 1 0
0 1 1 0 1
0 0 1 0 1
0 1 0 1 0
1 0 0 0 1
我唯一怀疑的是您提供的方法和差异。它们与您在给定数据上计算的不同:
A = [
10.836126 6.342457 6.359280 4.865735 11.332891;
13.228078 17.779455 11.021488 10.057800 13.371285;
11.350769 15.052270 10.556633 7.909101 7.627935;
11.841888 4.655980 8.363947 10.808192 12.761605;
2.534398 6.189042 6.987835 8.412396 8.166305
];
m = nanmean(A,1)
s = nanstd(A,1)
m =
9.9582518 10.0038408 8.6578366 8.4106448 10.6520042
s =
3.79639885205053 5.33862997268428 1.86284269833871 2.062972979429 2.35083838144151
因此,如果您必须使用它们,您可以按如下方式进行:
A = [
10.836126 6.342457 6.359280 4.865735 11.332891;
13.228078 17.779455 11.021488 10.057800 13.371285;
11.350769 15.052270 10.556633 7.909101 7.627935;
11.841888 4.655980 8.363947 10.808192 12.761605;
2.534398 6.189042 6.987835 8.412396 8.166305
];
m = [9.9900 10.0057 10.0180 10.0051 9.9312];
s = [3.0257 3.0208 3.0119 2.9924 2.9868];
lb = m - s;
ub = m + s;
is_outlier = ((A < lb) | (A > ub))
is_outlier =
0 1 1 1 0
1 1 0 0 1
0 1 0 0 0
0 1 0 0 0
1 1 1 0 0
一旦你知道A
的哪些元素必须被视为异常值,你可以根据自己的喜好继续处理它们。例如,您可以将它们设置为NaN
,如下所示:
A(is_outlier) = NaN;
或者您可以删除包含一个或多个异常值的所有列,如下所示:
A(any(is_outlier),:) = [];
考虑到你越多地增加平均容差,异常值就越少。使用基于isoutlier function标准偏差的内置3
,检测到非常少的异常值:
A = [
10.836126 6.342457 6.359280 4.865735 11.332891;
13.228078 17.779455 11.021488 10.057800 13.371285;
11.350769 15.052270 10.556633 7.909101 7.627935;
11.841888 4.655980 8.363947 10.808192 12.761605;
2.534398 6.189042 6.987835 8.412396 8.166305
];
isoutlier(A) % lb = m - (3 * s) AND ub = m + (3 * s)
ans =
0 0 0 0 0
0 1 0 0 0
0 1 0 0 0
0 0 0 0 0
1 0 0 0 0
整个数据的平均值是:data_mu=mean(mean(data))
,其中数据是所有值的矩阵。
而标准偏差是:data_std=std(std(data))
。
唯一的问题是你应该检查数据是否在下限和上限之间。
您应该开发如下代码:
data_mu=mean(mean(data));
data_std=std(std(data));
counter=0;
upper_bond=data_mu+data_std;
lower_bond=data_mu-data_std;
for i=1:size(data,1)
for j=1:size(data,2)
if data(i,j)>lower_bond && data(i,j)<upper_bond
counter=counter+1;
standard_data(counter)=data(i,j);
end
end
end