检测不适合R中对数函数的离群点

问题描述 投票:0回答:1

我有一个数据集,如下所示:

我的目标是对这些点拟合一条对数线,但忽略低于其余点的点,同时得出其余点的方程。基本上,我需要一种算法来检测点何时不遵循普遍模式。

我尝试计算直线每个点的导数并拟合直线,然后计算残差。这些都无法查明哪些点是异常值。

重现数据的代码:

structure(list(x = c(0.203511, 0.18356, 0.230625, 0.183559, 
0.183559, 0.18355, 0.183558, 0.183549, 0.183549, 0.252141, 0.206343, 
0.183551, 0.183559, 0.206392, 0.208928, 0.183547, 0.206628, 0.206861, 
0.209157, 0.18356, 0.18356, 0.183549, 0.322667, 0.18356, 0.183551, 
0.208688, 0.183549, 0.183548, 0.183548, 0.183559, 0.199, 0.183559, 
0.237485, 0.27509, 0.326279, 0.23, 0.367, 0.230508, 0.253799, 
0.196695, 0.183553, 0.265886, 0.244, 0.183552, 0.23, 0.322667, 
0.188143, 0.222, 0.205693, 0.245927, 0.183553, 0.333, 0.189656, 
0.18554, 0.183552, 0.367, 0.183553, 0.194093, 0.191298, 0.181536, 
0.183689, 0.192226, 0.204093, 0.269, 0.23291, 0.203545, 0.197, 
0.239, 0.233, 0.222, 0.185717, 0.191805, 0.26948, 0.24, 0.195, 
0.226951, 0.284, 0.235932, 0.195922, 0.184, 0.195935, 0.210763, 
0.197096, 0.197493, 0.21671, 0.195947, 0.21039, 0.308194, 0.212768, 
0.222379, 0.20945, 0.227, 0.219721, 0.191805, 0.268352, 0.323481, 
0.305, 0.2, 0.186, 0.811116, 0.23, 0.207, 0.236418, 0.243, 0.23, 
0.253, 0.195, 0.193, 0.395364, 0.314, 0.231, 0.195, 0.403, 0.243, 
0.24, 0.197246, 0.202, 0.217, 0.323877, 0.256, 0.193, 0.222656, 
0.224, 0.271, 0.292221, 0.185, 0.23, 0.273, 0.212149, 0.203, 
0.192, 0.23, 0.252, 0.19, 0.191805, 0.248, 0.183552, 0.184, 0.209217, 
0.185, 0.254, 0.199, 0.204, 0.183651, 0.201, 0.22, 0.255, 0.213, 
0.183553, 0.255291, 0.295301, 0.284, 0.23, 0.208, 0.286, 0.48, 
0.206, 0.191679, 0.23, 0.184, 0.195357, 0.184, 0.25815, 0.261, 
0.230229, 0.184, 0.253, 0.24875, 0.239, 0.242, 0.364462, 0.183925, 
0.217, 0.248, 0.245, 0.218719, 0.273, 0.19, 0.221632, 0.259, 
0.196, 0.212, 0.198, 0.249263, 0.322493, 0.306, 0.316, 0.66, 
0.25, 0.269, 0.231, 0.23, 0.23, 0.184, 0.243, 0.253259, 0.313, 
0.19, 0.227, 0.184, 0.183648, 0.239, 0.245757, 0.203, 0.212, 
0.19, 0.278765, 0.211, 0.192, 0.294992, 0.256297, 0.23, 0.188, 
0.26, 0.267956, 0.23, 0.256, 0.241, 0.206, 0.23, 0.23, 0.242, 
0.264573, 0.330066, 0.198, 0.219, 0.23, 0.329, 0.252, 0.273, 
0.23, 0.23, 0.23, 0.288243, 0.34749, 0.23, 0.201, 0.218, 0.253889, 
0.183554, 0.183552, 0.231, 0.214, 0.206483, 0.323926, 0.323, 
0.206192, 0.282, 0.208712, 0.249, 0.185637, 0.184, 0.245, 0.352793, 
0.239186, 0.184, 0.251484, 0.184, 0.489818, 0.219, 0.228, 0.196, 
0.343198, 0.203, 0.252, 0.253, 0.322143, 0.432, 0.241, 0.191, 
0.202, 0.20648, 0.23458, 0.339763, 0.207, 0.23, 0.225, 0.212, 
0.231, 0.243, 0.23, 0.3, 0.398848, 0.184, 0.470245, 0.322318, 
0.272, 0.23, 0.234, 0.284, 0.23, 0.243, 0.253, 0.287, 0.2075, 
0.201083, 0.26, 0.329, 0.23, 0.207, 0.237, 0.241, 0.273, 0.23, 
0.252, 0.23, 0.243, 0.24, 0.312884, 0.259, 0.288, 0.260141, 0.242672, 
0.256448, 0.287, 0.190091, 0.204, 0.762655, 0.315, 0.239259, 
0.208514, 0.23906, 0.184, 0.263, 0.254, 0.19, 0.198, 0.183559, 
0.241, 0.213, 0.23, 0.208, 0.284, 0.401, 0.209, 0.23, 0.23, 0.194, 
0.221635, 0.308, 0.23, 0.191804, 0.195, 0.282, 0.205232, 0.276, 
0.231, 0.23, 0.264, 0.234518, 0.193, 0.255, 0.318, 0.338, 0.23, 
0.221891, 0.28995, 0.23, 0.185, 0.252, 0.298, 0.344192, 0.214604, 
0.254, 0.394567, 0.23746, 0.184222, 0.23, 0.23, 0.191, 0.228, 
0.19, 0.232791, 0.184, 0.23, 0.239539, 0.195, 0.184, 0.184, 0.182, 
0.193, 0.184, 0.284, 0.194905, 0.200346, 0.184, 0.319, 0.208, 
0.237, 0.239271, 0.184, 0.320232, 0.413, 0.228, 0.298419, 0.221637, 
0.23, 0.23, 0.281, 0.289, 0.197, 0.198, 0.232, 0.195, 0.23, 0.201738, 
0.183599, 0.207, 0.239541, 0.23, 0.234506, 0.229), y = c(212100, 
207300, 218000, 207300, 207300, 207300, 207300, 207300, 207300, 
222200, 212700, 207300, 207300, 212700, 213200, 207300, 212700, 
212700, 213200, 207300, 207300, 207300, 234700, 207300, 207300, 
213200, 207300, 207300, 207300, 207300, 211000, 207300, 219500, 
226600, 235100, 217800, 241200, 217800, 222500, 210600, 207200, 
224900, 220500, 207200, 217800, 234700, 208300, 216100, 212500, 
221000, 207200, 236400, 208700, 207800, 207200, 241200, 207200, 
209800, 209200, 206800, 207300, 209300, 212200, 225400, 218400, 
212100, 210600, 219700, 218400, 216100, 207800, 209300, 225600, 
219800, 210000, 217300, 228100, 219000, 210200, 207300, 210200, 
213700, 210600, 210700, 214900, 210200, 213600, 232100, 214000, 
216300, 213400, 217300, 215600, 209300, 225400, 234900, 231800, 
211200, 208000, 287400, 217800, 212700, 219100, 220300, 217800, 
222500, 210000, 209500, 245400, 233200, 218000, 210000, 246300, 
220300, 219800, 210700, 211700, 215100, 224600, 223000, 209500, 
216300, 216500, 225800, 229400, 207500, 217800, 226200, 213900, 
211900, 209300, 217800, 222400, 208900, 209300, 221500, 207200, 
207300, 213200, 207500, 222700, 211000, 212200, 207300, 211400, 
215700, 222800, 214000, 207200, 222800, 230100, 228100, 217800, 
213100, 228600, 256100, 212500, 209300, 217800, 207300, 210000, 
207300, 223500, 223900, 217800, 207300, 222500, 221500, 219700, 
220100, 230500, 207300, 215100, 221500, 220800, 215200, 226200, 
208900, 216100, 223500, 210200, 213900, 210700, 221600, 234500, 
231900, 233400, 274700, 221800, 225400, 218000, 217800, 217800, 
207300, 220300, 222500, 233000, 208900, 217300, 207300, 207300, 
219700, 221000, 211900, 213900, 208900, 227300, 213700, 209300, 
230100, 223000, 217800, 208300, 223700, 225200, 217800, 223000, 
219900, 212500, 217800, 217800, 220100, 224700, 235900, 210700, 
215600, 217800, 235700, 222400, 226200, 217800, 217800, 217800, 
228800, 238400, 217800, 211400, 215200, 222500, 207200, 207200, 
218000, 214400, 212700, 224600, 234700, 212500, 227700, 213200, 
221600, 207800, 207300, 220800, 239300, 219700, 207300, 222200, 
207300, 257300, 215600, 217400, 210200, 237900, 211900, 222400, 
222500, 234500, 250200, 219900, 209200, 211700, 212700, 218800, 
237200, 212700, 217800, 216600, 213900, 218000, 220300, 217800, 
230800, 235100, 207300, 254900, 234500, 226000, 217800, 218600, 
228100, 217800, 220300, 222500, 228800, 213100, 211400, 223700, 
235700, 217800, 212700, 219100, 219900, 226200, 217800, 222400, 
217800, 220300, 219800, 233000, 223500, 228900, 223900, 220300, 
223000, 228800, 208900, 212200, 283400, 233300, 219800, 213200, 
219700, 207300, 224200, 222700, 208900, 210700, 207200, 219900, 
214000, 217800, 213100, 228100, 246100, 213200, 217800, 217800, 
209800, 216100, 232100, 217800, 209300, 210000, 227700, 212300, 
226700, 218000, 217800, 224300, 218800, 209500, 222800, 234000, 
237000, 217800, 216100, 229100, 217800, 207500, 222400, 230600, 
227700, 214600, 222700, 234600, 219500, 207300, 217800, 217800, 
209200, 217400, 208900, 218400, 207300, 217800, 219800, 210000, 
207300, 207300, 206800, 209500, 207300, 228100, 210000, 211200, 
207300, 234000, 213100, 219100, 219800, 207300, 234300, 247700, 
217400, 230600, 216100, 217800, 217800, 227500, 229100, 210600, 
210700, 218200, 210000, 217800, 211700, 207300, 212700, 219800, 
217800, 218800, 217600)), class = "data.frame", row.names = c(NA, 
-412L))
r regression outliers
1个回答
1
投票

这是我们可以做到的一种方法:

library(ggplot2)
library(dplyr)

df %>%
  mutate(residual = resid(lm(y ~ log(x), data = .)),
         outlier = ifelse(abs(residual) > (3 * sd(residual)), 'Yes', 'No')) %>% 
  ggplot(aes(x = x, y = y, color = outlier)) +
  geom_point(aes(shape = outlier), size = 5, alpha = 0.5) +
  geom_smooth(data = . %>% filter(outlier == "No"), 
              method = "lm", formula = y ~ log(x), se = FALSE) +
  scale_color_manual(values = c("No" = "steelblue3", "Yes" = "red3")) +
  scale_shape_manual(values = c("No" = 16, "Yes" = 17)) +
  theme_bw() +
  theme(text = element_text(size = 21))

© www.soinside.com 2019 - 2024. All rights reserved.