我正在尝试抓取一个网站,但无论我尝试什么,我都会收到 403 Forbidden 错误:
我在使用和不使用代理的情况下尝试了上述所有操作,更改用户代理并添加引用标头。
我什至从 Chrome 浏览器复制了请求标头,并尝试使用 PHP Curl 发送我的请求,但仍然收到 403 Forbidden 错误。
对于触发网站阻止请求以及如何绕过的任何意见或建议?
PHP CURL 示例:
$url ='https://www.vitacost.com/productResults.aspx?allCategories=true&N=1318723&isrc=vitacostbrands%3aquadblock%3asupplements&scrolling=true&No=40&_=1510475982858';
$headers = array(
'accept:application/json, text/javascript, */*; q=0.01',
'accept-encoding:gzip, deflate, br',
'accept-language:en-US,en;q=0.9',
'referer:https://www.vitacost.com/productResults.aspx?allCategories=true&N=1318723&isrc=vitacostbrands:quadblock:supplements',
'user-agent:Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/62.0.3202.89 Safari/537.36',
'x-requested-with:XMLHttpRequest',
);
$res = curl_get($url,$headers);
print $res;
exit;
function curl_get($url,$headers=array(),$useragent=''){
$curl = curl_init();
curl_setopt($curl, CURLOPT_URL, $url);
curl_setopt($curl, CURLOPT_RETURNTRANSFER, true);
curl_setopt($curl, CURLOPT_HEADER, true);
curl_setopt($curl, CURLOPT_SSL_VERIFYPEER, false);
curl_setopt($curl, CURLOPT_SSL_VERIFYHOST, false);
curl_setopt($curl, CURLOPT_FOLLOWLOCATION, true);
curl_setopt($curl, CURLOPT_ENCODING, '');
if($useragent)curl_setopt($curl, CURLOPT_USERAGENT,$useragent);
if($headers)curl_setopt($curl, CURLOPT_HTTPHEADER, $headers);
$response = curl_exec($curl);
$header_size = curl_getinfo($curl, CURLINFO_HEADER_SIZE);
$header = substr($response, 0, $header_size);
$response = substr($response, $header_size);
curl_close($curl);
return $response;
}
这是我总是得到的回应:
<HTML><HEAD>
<TITLE>Access Denied</TITLE>
</HEAD><BODY>
<H1>Access Denied</H1>
You don't have permission to access
"http://www.vitacost.com/productResults.aspx?"
on this server.<P>
Reference #18.55f50717.1510477424.2a24bbad
</BODY>
</HTML>
首先,请注意该网站不喜欢网页抓取。正如 @KeepCalmAndCarryOn 在评论中指出的那样,该网站有一个 /robots.txt ,其中明确要求机器人不要抓取网站的特定部分,包括您想要抓取的部分。虽然没有法律约束力,但好公民会遵守此类要求。
此外,该网站似乎采用了明确的保护措施来防止抓取,并试图确保这确实是一个浏览器。看起来该网站位于 Akamai CDN 后面,因此防抓取保护可能来自该 CDN。
但是我接受了 Firefox 发送的请求(有效),然后尝试尽可能简化它。以下内容目前对我有用,但如果网站更新其浏览器检测,当然可能会失败:
use strict;
use warnings;
use IO::Socket::SSL;
(my $rq = <<'RQ') =~s{\r?\n}{\r\n}g;
GET /productResults.aspx?allCategories=true&N=1318723&isrc=vitacostbrands%3aquadblock%3asupplements&scrolling=true&No=40&_=151047598285 HTTP/1.1
Host: www.vitacost.com
Accept: */*
Accept-Language: en-US
Connection: keep-alive
RQ
my $cl = IO::Socket::SSL->new('www.vitacost.com:443') or die;
print $cl $rq;
my $hdr = '';
while (<$cl>) {
$hdr .= $_;
last if $_ eq "\r\n";
}
warn "[header done]\n";
my $len = $hdr =~m{^Content-length:\s*(\d+)}mi && $1 or die "no length";
read($cl,my $buf,$len);
print $buf;
有趣的是,如果我删除
Accept
标头,我会收到 403 Forbidden。如果我删除 Accept-Language
,它就会挂起。而且有趣的是,它似乎不需要 User-Agent 标头。
编辑:看起来机器人检测也使用发件人的源 IP 作为功能。虽然上面的代码适用于两个不同的系统,但它无法适用于第三个系统(托管在 Digitalocean)并且只是挂起。