使用 R 从服务器/云自动进行网页抓取(无需使用 PC)

问题描述 投票:0回答:1

我的目标是在 R 中抓取一些网站并重复此操作,包括一些清理和格式化,作为日常例程,而无需使用计算机。也就是说,该过程可能需要使用服务器/云来自动化。

本质上,它与这个问题类似:Amazon Web Services - 如何每天运行脚本

但是,我宁愿避免使用 AWS – 我的日常工作真的很琐碎。下面是一个示例,仅使用三列(天、小时和降水量)来抓取天气预报数据,如下所示:

# Scrape from weather-forecast.com`
library(rvest)
url <- "https://www.weather-forecast.com/locations/Paris/forecasts/latest"
html_site <- read_html(url)
html_table <- html_site %>% html_table()
df <- html_table2[[2]]

# Clean
df <- df[c(1:2, 6), ]

df$X1[1] <- "day"
df$X1[2] <- "hour"
df$X1[3] <- "rain"

dfl <- as_tibble(cbind(nms = names(df$X1), t(df)))
colnames(dfl) <- unlist(dfl[1, ])
dfl <- dfl[-1, ]
dfl <- dfl[!is.na(dfl$day), ]

# Add a timestamp and save as CSV

目标是每天自动保存这些每日 CSV。

关于如何以最小的努力实现这一点有什么想法吗?也许使用 RStudio 服务器?

r web-scraping automation rstudio-server
1个回答
0
投票

以下是有关如何使用 Google Cloud Run 执行此操作的指南:链接

© www.soinside.com 2019 - 2024. All rights reserved.