亲爱的 Stackoverflow 社区,
我正在尝试使用教科书“Békés,Gábor。商业、经济和政策的数据分析”(https://gabors-data-analysis.com/) 自学 R 和数据分析,并且我使用维也纳酒店数据集(https://osf.io/y6jvb)陷入以下代码中。
---我确实有一些 R 经验,但由于我的基础知识很薄弱,所以我从头开始重新自学,并且确实需要您逐步指导如何计算下面的代码。
教科书的实际问题: 以本章中使用的hotels-vienna数据集为例,使用计算机选取大小为25、50和200的样本。计算每个样本中酒店价格的简单平均值,并将其与整个数据集中的酒店价格进行比较。重复此练习三次并记录结果。评论不同大小样本的平均值如何变化。
代码
rm(list=ls())
library(tidyverse)
#------------------------------------------------ -------------------------------------------------- --
选项 A:将材料作为项目打开
选项 B:为 da_case_studies 设置工作目录
示例:setwd(“C:/Users/bekes.gabor/Documents/github/da_case_studies/”)
设置数据目录,加载主题和功能
`setwd("C:/Users/sha/Desktop/R/intro/data/da_case_studies/")
source("ch00-tech-prep/theme_bg.R")source("ch00-tech-prep/da_helper_functions.R")`
#install.packages(“urca”) #install.packages(“观星者”)
我不知道如何做 data_dir 并获取 set-data-directory.R (有关如何设置计算机的链接 https://gabors-data-analysis.com/howto-r/)
`source("set-data-directory.R") #data_dir must be first defined #data_in <- paste(data_dir,"hotels-vienna","clean/", sep = "/")
use_case_dir <- "ch01-hotels-data-collect/"data_out <- use_case_diroutput <- paste0(use_case_dir,"output/")create_output_if_doesnt_exist(output)`
加载干净整洁的数据并创建工作文件
df <- read.csv(paste0(data_in,"hotels-vienna.csv"))
或从网站
df<- read_csv("https://osf.io/y6jvb/download")
##############################################
##############################################
df <- df%>%
select(hotel_id, accommodation_type, country, city, city_actual, neighbourhood, center1label, distance,center2label, distance_alter, stars, rating, rating_count, ratingta, ratingta_count, year, month,weekend, holiday, nnights, price, scarce_room, offer, offer_cat)
summary(df)glimpse(df)
df <- subset(df, select = c(hotel_id, accommodation_type, country, city, city_actual, center1label, distance, stars, rating, price)) write.csv(df[1:5,], paste0(output, "hotel_listobs.csv"), row.names = F)
################################################## #######################################
################################################## #####################################`
rm(list=ls())library(tidyverse)
install.packages("renv")renv::restore()
setwd("C:/Users/sha03/Desktop/R/intro/data/da_case_studies/")
source("theme_bg.R")source("da_helper_functions.R")
read.csv('C:/Users/sha03/Desktop/R/intro/data/da_case_studies/hotels-vienna.csv')
summary(df)summary(df)
glimpse(df)
尝试一下。它不会给你想要的答案,但是嘿,至少你得到了汇总统计数据。祝你好运,弄清楚其他事情。
setwd("C:/Users/tf/Desktop/R/data/da_case_studies/")
df <- read.csv('C:/Users/tf/Desktop/R/data/hotels-vienna.csv')
summary(df)
hotel_id accommodation_type country city city_actual center1label
Min. :21894 Length:428 Length:428 Length:428 Length:428 Length:428
1st Qu.:22028 Class :character Class :character Class :character Class :character Class :character
Median :22156 Mode :character Mode :character Mode :character Mode :character Mode :character
Mean :22154
3rd Qu.:22279
Max. :22409
distance stars rating price
Min. : 0.000 Min. :1.000 Min. :1.000 Min. : 27.0
1st Qu.: 0.700 1st Qu.:3.000 1st Qu.:3.700 1st Qu.: 83.0
Median : 1.300 Median :3.500 Median :4.000 Median : 109.5
Mean : 1.659 Mean :3.435 Mean :3.971 Mean : 131.4
3rd Qu.: 2.000 3rd Qu.:4.000 3rd Qu.:4.400 3rd Qu.: 146.0
Max. :13.000 Max. :5.000 Max. :5.000 Max. :1012.0
NA's :35
glimpse()