以可重复的方式以编程方式更改 R 数据框中的零星单元格值的最有效方法?

问题描述 投票:0回答:1

我是一名新手 R 程序员/分析师,正在分析 220 列 x 230 行的大型数据集。我发现源数据集中有一些不正确的零星值,我想更改这些值(例如拼写错误),同时能够记录我所做的更改,以便分析可以重现。我认为没有找到任何 R 包能够帮助我解决这个问题;目前,我正在查看并尝试使用 R 的内置数据编辑器(例如 edit())来纠正拼写错误,该编辑器不会跟踪所做的更改。以编程方式纠正每个零星单元格值错误似乎效率很低(例如使用 mtcars 数据集):

test <- mtcars
test[["Fiat X1-9", "mpg"]] <- 20
test[["Toyota Corona", "wt"]] <- 5.3

等等

是否有更有效的方法来检查加载到数据框中的源数据并以编程方式和可重复地更正此类单元格值?

谢谢!

r
1个回答
0
投票

你写的代码就是你所做事情的记录。例如,当我阅读您的示例时,我看到您正在将

mpg
的值更改为
Fiat X1-9
。这是对可重现的数据集的操作。

操作数据框中特定单元格的一个更简单但仍然有些乏味的过程是在

ifelse
tidyverse
函数中编写
mutate
语句。请参阅下面的示例。

library(tidyverse)

# CHANGE SPECIFIC VALUES USING IFELSE STATEMENT
mtcars %>%
  rownames_to_column(.,'MakeModel') %>% # converts row names to column
  mutate(mpg = ifelse(MakeModel == 'Fiat X1-9', 200, mpg),
         wt = ifelse(MakeModel == 'Toyota Corona', 55.3, wt))
#>              MakeModel   mpg cyl  disp  hp drat     wt  qsec vs am gear carb
#> 1            Mazda RX4  21.0   6 160.0 110 3.90  2.620 16.46  0  1    4    4
#> 2        Mazda RX4 Wag  21.0   6 160.0 110 3.90  2.875 17.02  0  1    4    4
#> 3           Datsun 710  22.8   4 108.0  93 3.85  2.320 18.61  1  1    4    1
#> 4       Hornet 4 Drive  21.4   6 258.0 110 3.08  3.215 19.44  1  0    3    1
#> 5    Hornet Sportabout  18.7   8 360.0 175 3.15  3.440 17.02  0  0    3    2
#> 6              Valiant  18.1   6 225.0 105 2.76  3.460 20.22  1  0    3    1
#> 7           Duster 360  14.3   8 360.0 245 3.21  3.570 15.84  0  0    3    4
#> 8            Merc 240D  24.4   4 146.7  62 3.69  3.190 20.00  1  0    4    2
#> 9             Merc 230  22.8   4 140.8  95 3.92  3.150 22.90  1  0    4    2
#> 10            Merc 280  19.2   6 167.6 123 3.92  3.440 18.30  1  0    4    4
#> 11           Merc 280C  17.8   6 167.6 123 3.92  3.440 18.90  1  0    4    4
#> 12          Merc 450SE  16.4   8 275.8 180 3.07  4.070 17.40  0  0    3    3
#> 13          Merc 450SL  17.3   8 275.8 180 3.07  3.730 17.60  0  0    3    3
#> 14         Merc 450SLC  15.2   8 275.8 180 3.07  3.780 18.00  0  0    3    3
#> 15  Cadillac Fleetwood  10.4   8 472.0 205 2.93  5.250 17.98  0  0    3    4
#> 16 Lincoln Continental  10.4   8 460.0 215 3.00  5.424 17.82  0  0    3    4
#> 17   Chrysler Imperial  14.7   8 440.0 230 3.23  5.345 17.42  0  0    3    4
#> 18            Fiat 128  32.4   4  78.7  66 4.08  2.200 19.47  1  1    4    1
#> 19         Honda Civic  30.4   4  75.7  52 4.93  1.615 18.52  1  1    4    2
#> 20      Toyota Corolla  33.9   4  71.1  65 4.22  1.835 19.90  1  1    4    1
#> 21       Toyota Corona  21.5   4 120.1  97 3.70 55.300 20.01  1  0    3    1
#> 22    Dodge Challenger  15.5   8 318.0 150 2.76  3.520 16.87  0  0    3    2
#> 23         AMC Javelin  15.2   8 304.0 150 3.15  3.435 17.30  0  0    3    2
#> 24          Camaro Z28  13.3   8 350.0 245 3.73  3.840 15.41  0  0    3    4
#> 25    Pontiac Firebird  19.2   8 400.0 175 3.08  3.845 17.05  0  0    3    2
#> 26           Fiat X1-9 200.0   4  79.0  66 4.08  1.935 18.90  1  1    4    1
#> 27       Porsche 914-2  26.0   4 120.3  91 4.43  2.140 16.70  0  1    5    2
#> 28        Lotus Europa  30.4   4  95.1 113 3.77  1.513 16.90  1  1    5    2
#> 29      Ford Pantera L  15.8   8 351.0 264 4.22  3.170 14.50  0  1    5    4
#> 30        Ferrari Dino  19.7   6 145.0 175 3.62  2.770 15.50  0  1    5    6
#> 31       Maserati Bora  15.0   8 301.0 335 3.54  3.570 14.60  0  1    5    8
#> 32          Volvo 142E  21.4   4 121.0 109 4.11  2.780 18.60  1  1    4    2

# CHANGE SPECIFIC VALUES USING IFELSE STATEMENT WITH AND/OR OPERATORS
mtcars %>%
  rownames_to_column(.,'MakeModel') %>% # converts row names to column
  mutate(mpg = ifelse(mpg > 20, 200, mpg),
         wt = ifelse(wt > 2 & wt <= 5, 999, wt), # & = AND
         hp = ifelse(hp < 70 | hp > 200, -999, hp)) # | = OR
#>              MakeModel   mpg cyl  disp   hp drat      wt  qsec vs am gear carb
#> 1            Mazda RX4 200.0   6 160.0  110 3.90 999.000 16.46  0  1    4    4
#> 2        Mazda RX4 Wag 200.0   6 160.0  110 3.90 999.000 17.02  0  1    4    4
#> 3           Datsun 710 200.0   4 108.0   93 3.85 999.000 18.61  1  1    4    1
#> 4       Hornet 4 Drive 200.0   6 258.0  110 3.08 999.000 19.44  1  0    3    1
#> 5    Hornet Sportabout  18.7   8 360.0  175 3.15 999.000 17.02  0  0    3    2
#> 6              Valiant  18.1   6 225.0  105 2.76 999.000 20.22  1  0    3    1
#> 7           Duster 360  14.3   8 360.0 -999 3.21 999.000 15.84  0  0    3    4
#> 8            Merc 240D 200.0   4 146.7 -999 3.69 999.000 20.00  1  0    4    2
#> 9             Merc 230 200.0   4 140.8   95 3.92 999.000 22.90  1  0    4    2
#> 10            Merc 280  19.2   6 167.6  123 3.92 999.000 18.30  1  0    4    4
#> 11           Merc 280C  17.8   6 167.6  123 3.92 999.000 18.90  1  0    4    4
#> 12          Merc 450SE  16.4   8 275.8  180 3.07 999.000 17.40  0  0    3    3
#> 13          Merc 450SL  17.3   8 275.8  180 3.07 999.000 17.60  0  0    3    3
#> 14         Merc 450SLC  15.2   8 275.8  180 3.07 999.000 18.00  0  0    3    3
#> 15  Cadillac Fleetwood  10.4   8 472.0 -999 2.93   5.250 17.98  0  0    3    4
#> 16 Lincoln Continental  10.4   8 460.0 -999 3.00   5.424 17.82  0  0    3    4
#> 17   Chrysler Imperial  14.7   8 440.0 -999 3.23   5.345 17.42  0  0    3    4
#> 18            Fiat 128 200.0   4  78.7 -999 4.08 999.000 19.47  1  1    4    1
#> 19         Honda Civic 200.0   4  75.7 -999 4.93   1.615 18.52  1  1    4    2
#> 20      Toyota Corolla 200.0   4  71.1 -999 4.22   1.835 19.90  1  1    4    1
#> 21       Toyota Corona 200.0   4 120.1   97 3.70 999.000 20.01  1  0    3    1
#> 22    Dodge Challenger  15.5   8 318.0  150 2.76 999.000 16.87  0  0    3    2
#> 23         AMC Javelin  15.2   8 304.0  150 3.15 999.000 17.30  0  0    3    2
#> 24          Camaro Z28  13.3   8 350.0 -999 3.73 999.000 15.41  0  0    3    4
#> 25    Pontiac Firebird  19.2   8 400.0  175 3.08 999.000 17.05  0  0    3    2
#> 26           Fiat X1-9 200.0   4  79.0 -999 4.08   1.935 18.90  1  1    4    1
#> 27       Porsche 914-2 200.0   4 120.3   91 4.43 999.000 16.70  0  1    5    2
#> 28        Lotus Europa 200.0   4  95.1  113 3.77   1.513 16.90  1  1    5    2
#> 29      Ford Pantera L  15.8   8 351.0 -999 4.22 999.000 14.50  0  1    5    4
#> 30        Ferrari Dino  19.7   6 145.0  175 3.62 999.000 15.50  0  1    5    6
#> 31       Maserati Bora  15.0   8 301.0 -999 3.54 999.000 14.60  0  1    5    8
#> 32          Volvo 142E 200.0   4 121.0  109 4.11 999.000 18.60  1  1    4    2

创建于 2024-07-08,使用 reprex v2.1.0

© www.soinside.com 2019 - 2024. All rights reserved.