使用rvest包来刮取航空安全数据

问题描述 投票:0回答:1

我是R的新手,在网络编程方面有0经验。现在我被分配了一个项目来争论和可视化航空安全数据。我在网上搜索数据并在这里获得网站http://aviation-safety.net/database/我对飞机类型,年份,国家和航空公司子类别感兴趣,我如何使用rvest将这些数据作为数据框架下载?

这就像一个免费乘车问题,但刮擦只是我所知道的。

r web-scraping rvest
1个回答
1
投票

实际上rvest让这很简单。以此为例那么是1919年数据的链接

library(rvest)

read_html("http://aviation-safety.net/database/dblist.php?Year=1919") %>%
  html_table()

[[1]]
         date            type registration operator fat.            location    pic cat
1 02-AUG-1919   Caproni Ca.48               Caproni   14              Verona NA  NA  A1
2 11-AUG-1919 Felixstowe Fury         N123      RAF    1 near Felixtowe RNAS NA  NA  A1

这些链接应该是直截了当的,即使没有抓取它们,对吧?要从图片中获取国家/地区,您必须选择标记图像标题

read_html("http://aviation-safety.net/database/dblist.php?Year=1919") %>%
  html_nodes(".innertube > table") %>%
  html_nodes(".list > img") %>% html_attr("title") %>% na.omit()

[1] "Italy" "U.K." 
attr(,"na.action")
© www.soinside.com 2019 - 2024. All rights reserved.