从R中的url获取重定向的数量

问题描述 投票:0回答:2

我必须从我的数据框中的url中提取一个功能 - 重定向的数量。有没有办法在py中找到R中的数字:

r = requests.get(url)
i=0
    for h in r.history:
                i=i+1
print(i)
r curl httr
2个回答
1
投票

来自httr::GET的返回值完全没有记录,但重定向的标题等似乎出现在$all_headers对象中:

> url = "http://github.com"
> g = httr::GET(url)
> length(g$all_headers)
[1] 2

因为http重定向到https。如果您直接访问https,则不会看到重定向:

> url = "https://github.com"
> g = httr::GET(url)
> length(g$all_headers)
[1] 1

1
投票

httr::GET的返回值是一个httr::response对象,其中包含?httr::response的核心文档。您可以使用str()检查整个对象,以查看对大多数R用户不重要的部分。它已被记录,如永远。我不知道哪些人可能会感到困惑,因为它没有文档。也许头顶在云层之上......也许在轨道或太空或其他东西。

由于你想要的是重定向数,你可能真的关心重定向与所有响应头的天真计数。例如

res <- httr::GET("http://1.usa.gov/1J6GNoW")
sum(((sapply(res$all_headers, `[[`, "status") %% 300) == 1))

这是3(可能不是你想要的)。

length(res$all_headers)

是4并且我怀疑你应该在重定向中包含4xx响应,但如果它只是HTTP链中3xx与总数的比例,你可能会更清楚。

您可能还想考虑:

cat(rawToChar(curl::curl_fetch_memory("http://1.usa.gov/1J6GNoW")$headers))

从中计算实际的重定向(取决于实际的“任务”)。

© www.soinside.com 2019 - 2024. All rights reserved.