为什么要将数据分为 4 个部分以进行 IQR,而不是分成更多部分,例如每个部分 20% 或 10%?
我知道四分位距的定义意味着 25%,但这不是我的问题。
我认为为 IQR 丢弃 50% 的数据来去除异常值太浪费数据了。但总得有个理由吧?
当使用 IQR 查找离群值时,离群值不定义为
[Q1; Q3]
范围之外的数据点。它们被定义为 [Q1 − 1.5*IQR; Q3 + 1.5*IQR]
范围之外的点。因此,用您的话说,“浪费”的数据远少于 50%。
四分位距通常用于查找数据中的异常值。此处的异常值定义为低于 Q1 − 1.5 IQR 或高于 Q3 + 1.5 IQR 的观测值。在箱线图中,此限制内的最高和最低出现值由箱须(通常在须线末端有一个附加条)和任何异常值作为单独的点来指示。
另请参阅: