我正在使用 LWP 从网页下载内容,我想限制它等待页面的时间。这是在 lwp 中完成的,如下所示:
my $ua = LWP::UserAgent->new;
$ua->timeout(10);
$ua->get($url);
这工作得很好,除了每当超时达到限制时,它就会死掉,我无法继续执行脚本!我真的很想正确处理这个超时,以便我可以记录该网址超时,然后继续处理下一个。有谁知道如何做到这一点?谢谢!
get()
返回一个 HTTP::Response 对象,您可以使用它来检查错误:
use LWP::Agent;
use HTTP::Status ();
my $ua = LWP::UserAgent->new;
$ua->timeout(10);
my $response = $ua->get($url);
if ($response->is_error) {
printf "[%d] %s\n", $response->code, $response->message;
# record the timeout
if ($response->code == HTTP::Status::HTTP_REQUEST_TIMEOUT) {
...
}
}
顺便说一句,现在更好的做法是使用 Try::Tiny 而不是
eval {...}
。它给你try {...} catch {...}
。它解决了检查 if $@
的一些问题(请参阅 Try::Tiny
文档中的背景部分)。
对于大多数用途,LWP::UserAgent 的超时是足够的,但它确实有一些缺点......它适用于each系统调用,而不是它们的聚合。如果您确实需要固定的超时时间,这是 LWPx::ParanoidAgent 需要注意的事情之一。
您可以使用 eval 块在 Perl 中执行相当于 try{} catch {} 的操作:
接受的答案中的代码方法(https://stackoverflow.com/a/10990114/908961)有效,但用户代理超时的响应代码现在是
500
而不是HTTP::Status::HTTP_REQUEST_TIMEOUT
(408) 。请参阅文档https://metacpan.org/pod/LWP::UserAgent#timeout。因此,要确定是否发生超时,您必须检查 Client-Warning
标头是否为 "Internal response"
并检查消息是否为 "read timeout"
。