Matlab中二维数组的异常分析

问题描述 投票:0回答:2

我正在尝试对2D数组值进行离群值分析,我的数据如下所示:

10.836126    6.342457    6.359280    4.865735   11.332891
13.228078   17.779455   11.021488   10.057800   13.371285
11.350769   15.052270   10.556633    7.909101    7.627935
11.841888    4.655980    8.363947   10.808192   12.761605
2.534398    6.189042    6.987835    8.412396    8.166305

根据我的任务要求,我需要消除所有那些与平均值相差1个标准差的值,我被困的点是:

该组的平均值= 9.9900 10.0057 10.0180 10.0051 9.9312和

标准偏差= 3.0257 3.0208 3.0119 2.9924 2.9868

我无法计算如何根据平均值和标准差来计算异常值。在这方面的任何帮助非常感谢。

P.S:我对Matlab和数据分析都很陌生。所以,请原谅我的任何无关信息。

arrays matlab outliers
2个回答
1
投票

通常,使用isoutlier function在Matlab上执行此操作。当method参数作为mean传递给函数调用时,用于检测异常值的均值方差方法(在您的问题中引用的方法)应用于观察:

method - 确定异常值'中位数'的方法(默认)| '意思'| '四分之一'| 'grubbs'| 'gesd'

'mean'对于与均值超过三个标准偏差的元素,返回true。这种方法比“中位数”更快但不太稳健。

不幸的是,它基于3远离平均值的标准偏差,而不是仅仅距离均值的1标准偏差。因此,必须实现自定义代码。鉴于观察矩阵A,这应该工作正常:

m = nanmean(A,1);
s = nanstd(A,1);    
lb = m - s;
ub = m + s;
is_outlier = ((A < lb) | (A > ub));

is_outlier变量将是A大小相同的逻辑值矩阵,其中true值表示异常值:

A = [
  10.836126  6.342457  6.359280  4.865735 11.332891;
  13.228078 17.779455 11.021488 10.057800 13.371285;
  11.350769 15.052270 10.556633  7.909101  7.627935;
  11.841888  4.655980  8.363947 10.808192 12.761605;
   2.534398  6.189042  6.987835  8.412396  8.166305
];

m = nanmean(A,1);
s = nanstd(A,1);    
lb = m - s;
ub = m + s;

is_outlier = ((A < lb) | (A > ub))

is_outlier =
   0   0   1   1   0
   0   1   1   0   1
   0   0   1   0   1
   0   1   0   1   0
   1   0   0   0   1

我唯一怀疑的是您提供的方法和差异。它们与您在给定数据上计算的不同:

A = [
  10.836126  6.342457  6.359280  4.865735 11.332891;
  13.228078 17.779455 11.021488 10.057800 13.371285;
  11.350769 15.052270 10.556633  7.909101  7.627935;
  11.841888  4.655980  8.363947 10.808192 12.761605;
   2.534398  6.189042  6.987835  8.412396  8.166305
];

m = nanmean(A,1)
s = nanstd(A,1)

m =
    9.9582518 10.0038408 8.6578366 8.4106448 10.6520042


s =
    3.79639885205053 5.33862997268428 1.86284269833871 2.062972979429 2.35083838144151

因此,如果您必须使用它们,您可以按如下方式进行:

A = [
  10.836126  6.342457  6.359280  4.865735 11.332891;
  13.228078 17.779455 11.021488 10.057800 13.371285;
  11.350769 15.052270 10.556633  7.909101  7.627935;
  11.841888  4.655980  8.363947 10.808192 12.761605;
   2.534398  6.189042  6.987835  8.412396  8.166305
];

m = [9.9900 10.0057 10.0180 10.0051 9.9312];
s = [3.0257  3.0208  3.0119  2.9924 2.9868];

lb = m - s;
ub = m + s;

is_outlier = ((A < lb) | (A > ub))

is_outlier =
   0   1   1   1   0
   1   1   0   0   1
   0   1   0   0   0
   0   1   0   0   0
   1   1   1   0   0

一旦你知道A的哪些元素必须被视为异常值,你可以根据自己的喜好继续处理它们。例如,您可以将它们设置为NaN,如下所示:

A(is_outlier) = NaN;

或者您可以删除包含一个或多个异常值的所有列,如下所示:

A(any(is_outlier),:) = [];

考虑到你越多地增加平均容差,异常值就越少。使用基于isoutlier function标准偏差的内置3,检测到非常少的异常值:

A = [
  10.836126  6.342457  6.359280  4.865735 11.332891;
  13.228078 17.779455 11.021488 10.057800 13.371285;
  11.350769 15.052270 10.556633  7.909101  7.627935;
  11.841888  4.655980  8.363947 10.808192 12.761605;
   2.534398  6.189042  6.987835  8.412396  8.166305
];

isoutlier(A) % lb = m - (3 * s) AND ub = m + (3 * s)

ans =
   0   0   0   0   0
   0   1   0   0   0
   0   1   0   0   0
   0   0   0   0   0
   1   0   0   0   0

0
投票

整个数据的平均值是:data_mu=mean(mean(data)),其中数据是所有值的矩阵。

而标准偏差是:data_std=std(std(data))

唯一的问题是你应该检查数据是否在下限和上限之间。

您应该开发如下代码:

data_mu=mean(mean(data));
data_std=std(std(data));    
counter=0;
upper_bond=data_mu+data_std;
lower_bond=data_mu-data_std;
for i=1:size(data,1)
   for j=1:size(data,2)
      if data(i,j)>lower_bond && data(i,j)<upper_bond
         counter=counter+1;
         standard_data(counter)=data(i,j);
      end
   end
end
© www.soinside.com 2019 - 2024. All rights reserved.