获取链接，同时在R中进行网络抓取

Question

我正在尝试获取谷歌的链接，同时做一个搜索，即所有这些链接：

我已经做了这种刮，但在这种情况下，我不明白为什么它不起作用，所以我运行以下行：

library(rvest)
url<-"https://www.google.es/search?q=Ediciones+Peña+sl+telefono"
content_request<-read_html(url)
content_request %>%
    html_nodes(".r") %>%
    html_attr("href")

我尝试过其他节点，我得到了类似的答案：

content_request %>%
    html_nodes(".LC20lb") %>%
    html_attr("href")

最后我试图获取网页的所有链接，但有一些我无法下载的链接：

html_attr(html_nodes(content_request, "a"), "href")

拜托，在这种情况下你能帮帮我吗？谢谢。

Answer 1

这里有两个选项供您玩。

#1) 

url <- "https://www.google.es/search?q=Ediciones+Pe%C3%B1a+sl+telefono"
html <- paste(readLines(url), collapse="\n")
library(stringr)
matched <- str_match_all(html, "<a href=\"(.*?)\"")


#2) 

library(xml2)
library(rvest)
URL <- "https://www.google.es/search?q=Ediciones+Pe%C3%B1a+sl+telefono"
pg <- read_html(URL)
head(html_attr(html_nodes(pg, "a"), "href"))

获取链接，同时在R中进行网络抓取

问题描述投票：1回答：1

1个回答

最新问题

获取链接，同时在R中进行网络抓取

问题描述 投票：1回答：1

1个回答

最新问题

问题描述投票：1回答：1