尝试分析调查中开放式答案问题的结果

问题描述 投票:0回答:1

我目前正在学习如何在 R Studio 中执行数据分析,并使用 SPSS 数据库作为示例。目前,我对一个开放式答案问题的结果有疑问,人们必须写下他们来自哪个地区。所以现在我有很多情况,相同的答案写得略有不同,因此尽管它们指的是同一地区,但它们被认为是不同的。

示例:

x<- c("Bucharest", "ploiesti", "Focsani", 
      "bucharest", "sinaia", "Ploiești", "Sinaia", "BUCHAREST", "Bucharest", "Ploiesti")

table(x)

如果我想制作一个表格,结果将是:

> table(x)
x
bucharest Bucharest BUCHAREST   Focsani  ploiesti  Ploiesti  Ploiești 
        1         2         1         1         1         1         1 
   sinaia    Sinaia 
        1         1  

我不确定这是否是最好的例子,因为我的问题是数据集中的变量/列,但我希望这有帮助。

我尝试使用“stringr”包中的“str_to_title()”函数,但出现以下错误:

Warning message:
In stri_trans_totitle(string, opts_brkiter = stri_opts_brkiter(locale = locale)) :
  argument is not an atomic vector; coercing

我想找到一种方法使所有答案更加统一(例如:将“Bucharest”的所有版本变成具有相同拼写的版本,可以被识别为相同的答案并对其他答案执行相同的操作)并且然后形成一个表格,我可以在其中看到每个答案重复了多少次。

r survey
1个回答
0
投票
x <- data.frame(region = c("Bucharest", "ploiesti", "Focsani", 
      "bucharest", "sinaia", "Ploiești", "Sinaia", "BUCHAREST", "Bucharest", "Ploiesti")) %>% 
  mutate(uniformName = str_to_title(region), 
         uniformName = str_replace(uniformName, 'ș', 's')) %>% 
  group_by(uniformName) %>% 
  summarise(count = n())

sample

© www.soinside.com 2019 - 2024. All rights reserved.