使用 R 从服务器/云自动进行网页抓取（无需使用 PC）

Question

我的目标是在 R 中抓取一些网站并重复此操作，包括一些清理和格式化，作为日常例程，而无需使用计算机。也就是说，该过程可能需要使用服务器/云来自动化。

本质上，它与这个问题类似：Amazon Web Services - 如何每天运行脚本。

但是，我宁愿避免使用 AWS – 我的日常工作真的很琐碎。下面是一个示例，仅使用三列（天、小时和降水量）来抓取天气预报数据，如下所示：

# Scrape from weather-forecast.com`
library(rvest)
url <- "https://www.weather-forecast.com/locations/Paris/forecasts/latest"
html_site <- read_html(url)
html_table <- html_site %>% html_table()
df <- html_table2[[2]]

# Clean
df <- df[c(1:2, 6), ]

df$X1[1] <- "day"
df$X1[2] <- "hour"
df$X1[3] <- "rain"

dfl <- as_tibble(cbind(nms = names(df$X1), t(df)))
colnames(dfl) <- unlist(dfl[1, ])
dfl <- dfl[-1, ]
dfl <- dfl[!is.na(dfl$day), ]

# Add a timestamp and save as CSV

目标是每天自动保存这些每日 CSV。

关于如何以最小的努力实现这一点有什么想法吗？也许使用 RStudio 服务器？

Answer 1

以下是有关如何使用 Google Cloud Run 执行此操作的指南：链接

使用 R 从服务器/云自动进行网页抓取（无需使用 PC）

问题描述投票：0回答：1

1个回答

最新问题

使用 R 从服务器/云自动进行网页抓取（无需使用 PC）

问题描述 投票：0回答：1

1个回答

最新问题

问题描述投票：0回答：1