我想问为什么我们将 IQR 数据分为 4 部分,为什么不是 20% 或 10%?这可以提供更正确的数据读数。
我知道四分位数范围意味着 25%,但这根本不是我的意思。
我认为不考虑 IQR 的 50% 数据以便不考虑异常值是对数据的过度浪费,但必须有一个原因,对吗?
当使用 IQR 查找离群值时,离群值不定义为
[Q1; Q3]
范围之外的数据点。它们被定义为 [Q1 − 1.5*IQR; Q3 + 1.5*IQR]
范围之外的点。因此,用您的话说,“浪费”的数据远少于 50%。
四分位距通常用于查找数据中的异常值。此处的异常值定义为低于 Q1 − 1.5 IQR 或高于 Q3 + 1.5 IQR 的观测值。在箱线图中,此限制内的最高和最低出现值由箱须(通常在须线末端有一个附加条)和任何异常值作为单独的点来指示。
另请参阅: