我必须从我的数据框中的url中提取一个功能 - 重定向的数量。有没有办法在py中找到R中的数字:
r = requests.get(url)
i=0
for h in r.history:
i=i+1
print(i)
来自httr::GET
的返回值完全没有记录,但重定向的标题等似乎出现在$all_headers
对象中:
> url = "http://github.com"
> g = httr::GET(url)
> length(g$all_headers)
[1] 2
因为http重定向到https。如果您直接访问https,则不会看到重定向:
> url = "https://github.com"
> g = httr::GET(url)
> length(g$all_headers)
[1] 1
httr::GET
的返回值是一个httr::response
对象,其中包含?httr::response
的核心文档。您可以使用str()
检查整个对象,以查看对大多数R用户不重要的部分。它已被记录,如永远。我不知道哪些人可能会感到困惑,因为它没有文档。也许头顶在云层之上......也许在轨道或太空或其他东西。
由于你想要的是重定向数,你可能真的关心重定向与所有响应头的天真计数。例如
res <- httr::GET("http://1.usa.gov/1J6GNoW")
sum(((sapply(res$all_headers, `[[`, "status") %% 300) == 1))
这是3(可能不是你想要的)。
length(res$all_headers)
是4并且我怀疑你应该在重定向中包含4xx响应,但如果它只是HTTP链中3xx与总数的比例,你可能会更清楚。
您可能还想考虑:
cat(rawToChar(curl::curl_fetch_memory("http://1.usa.gov/1J6GNoW")$headers))
从中计算实际的重定向(取决于实际的“任务”)。