我的目标是在 R 中抓取一些网站并重复此操作,包括一些清理和格式化,作为日常例程,而无需使用计算机。也就是说,该过程可能需要使用服务器/云来自动化。
本质上,它与这个问题类似:Amazon Web Services - 如何每天运行脚本。
但是,我宁愿避免使用 AWS – 我的日常工作真的很琐碎。下面是一个示例,仅使用三列(天、小时和降水量)来抓取天气预报数据,如下所示:
# Scrape from weather-forecast.com`
library(rvest)
url <- "https://www.weather-forecast.com/locations/Paris/forecasts/latest"
html_site <- read_html(url)
html_table <- html_site %>% html_table()
df <- html_table2[[2]]
# Clean
df <- df[c(1:2, 6), ]
df$X1[1] <- "day"
df$X1[2] <- "hour"
df$X1[3] <- "rain"
dfl <- as_tibble(cbind(nms = names(df$X1), t(df)))
colnames(dfl) <- unlist(dfl[1, ])
dfl <- dfl[-1, ]
dfl <- dfl[!is.na(dfl$day), ]
# Add a timestamp and save as CSV
目标是每天自动保存这些每日 CSV。
关于如何以最小的努力实现这一点有什么想法吗?也许使用 RStudio 服务器?
以下是有关如何使用 Google Cloud Run 执行此操作的指南:链接