Matlab中二维数组的异常分析

Question

我正在尝试对2D数组值进行离群值分析，我的数据如下所示：

10.836126    6.342457    6.359280    4.865735   11.332891
13.228078   17.779455   11.021488   10.057800   13.371285
11.350769   15.052270   10.556633    7.909101    7.627935
11.841888    4.655980    8.363947   10.808192   12.761605
2.534398    6.189042    6.987835    8.412396    8.166305

根据我的任务要求，我需要消除所有那些与平均值相差1个标准差的值，我被困的点是：

该组的平均值= 9.9900 10.0057 10.0180 10.0051 9.9312和

标准偏差= 3.0257 3.0208 3.0119 2.9924 2.9868

我无法计算如何根据平均值和标准差来计算异常值。在这方面的任何帮助非常感谢。

P.S：我对Matlab和数据分析都很陌生。所以，请原谅我的任何无关信息。

Answer 1

通常，使用isoutlier function在Matlab上执行此操作。当method参数作为mean传递给函数调用时，用于检测异常值的均值方差方法（在您的问题中引用的方法）应用于观察：

method - 确定异常值'中位数'的方法（默认）| '意思'| '四分之一'| 'grubbs'| 'gesd'

'mean'对于与均值超过三个标准偏差的元素，返回true。这种方法比“中位数”更快但不太稳健。

不幸的是，它基于3远离平均值的标准偏差，而不是仅仅距离均值的1标准偏差。因此，必须实现自定义代码。鉴于观察矩阵A，这应该工作正常：

m = nanmean(A,1);
s = nanstd(A,1);    
lb = m - s;
ub = m + s;
is_outlier = ((A < lb) | (A > ub));

is_outlier变量将是A大小相同的逻辑值矩阵，其中true值表示异常值：

A = [
  10.836126  6.342457  6.359280  4.865735 11.332891;
  13.228078 17.779455 11.021488 10.057800 13.371285;
  11.350769 15.052270 10.556633  7.909101  7.627935;
  11.841888  4.655980  8.363947 10.808192 12.761605;
   2.534398  6.189042  6.987835  8.412396  8.166305
];

m = nanmean(A,1);
s = nanstd(A,1);    
lb = m - s;
ub = m + s;

is_outlier = ((A < lb) | (A > ub))

is_outlier =
   0   0   1   1   0
   0   1   1   0   1
   0   0   1   0   1
   0   1   0   1   0
   1   0   0   0   1

我唯一怀疑的是您提供的方法和差异。它们与您在给定数据上计算的不同：

A = [
  10.836126  6.342457  6.359280  4.865735 11.332891;
  13.228078 17.779455 11.021488 10.057800 13.371285;
  11.350769 15.052270 10.556633  7.909101  7.627935;
  11.841888  4.655980  8.363947 10.808192 12.761605;
   2.534398  6.189042  6.987835  8.412396  8.166305
];

m = nanmean(A,1)
s = nanstd(A,1)

m =
    9.9582518 10.0038408 8.6578366 8.4106448 10.6520042


s =
    3.79639885205053 5.33862997268428 1.86284269833871 2.062972979429 2.35083838144151

因此，如果您必须使用它们，您可以按如下方式进行：

A = [
  10.836126  6.342457  6.359280  4.865735 11.332891;
  13.228078 17.779455 11.021488 10.057800 13.371285;
  11.350769 15.052270 10.556633  7.909101  7.627935;
  11.841888  4.655980  8.363947 10.808192 12.761605;
   2.534398  6.189042  6.987835  8.412396  8.166305
];

m = [9.9900 10.0057 10.0180 10.0051 9.9312];
s = [3.0257  3.0208  3.0119  2.9924 2.9868];

lb = m - s;
ub = m + s;

is_outlier = ((A < lb) | (A > ub))

is_outlier =
   0   1   1   1   0
   1   1   0   0   1
   0   1   0   0   0
   0   1   0   0   0
   1   1   1   0   0

一旦你知道A的哪些元素必须被视为异常值，你可以根据自己的喜好继续处理它们。例如，您可以将它们设置为NaN，如下所示：

A(is_outlier) = NaN;

或者您可以删除包含一个或多个异常值的所有列，如下所示：

A(any(is_outlier),:) = [];

考虑到你越多地增加平均容差，异常值就越少。使用基于isoutlier function标准偏差的内置3，检测到非常少的异常值：

A = [
  10.836126  6.342457  6.359280  4.865735 11.332891;
  13.228078 17.779455 11.021488 10.057800 13.371285;
  11.350769 15.052270 10.556633  7.909101  7.627935;
  11.841888  4.655980  8.363947 10.808192 12.761605;
   2.534398  6.189042  6.987835  8.412396  8.166305
];

isoutlier(A) % lb = m - (3 * s) AND ub = m + (3 * s)

ans =
   0   0   0   0   0
   0   1   0   0   0
   0   1   0   0   0
   0   0   0   0   0
   1   0   0   0   0

Answer 2

整个数据的平均值是：data_mu=mean(mean(data))，其中数据是所有值的矩阵。

而标准偏差是：data_std=std(std(data))。

唯一的问题是你应该检查数据是否在下限和上限之间。

您应该开发如下代码：

data_mu=mean(mean(data));
data_std=std(std(data));    
counter=0;
upper_bond=data_mu+data_std;
lower_bond=data_mu-data_std;
for i=1:size(data,1)
   for j=1:size(data,2)
      if data(i,j)>lower_bond && data(i,j)<upper_bond
         counter=counter+1;
         standard_data(counter)=data(i,j);
      end
   end
end

Matlab中二维数组的异常分析

问题描述投票：0回答：2

2个回答

最新问题

Matlab中二维数组的异常分析

问题描述 投票：0回答：2

2个回答

最新问题

问题描述投票：0回答：2