为什么我不能通过 BeautifulSoup 抓取亚马逊？ [关闭]

Question

这是我的python代码：

import urllib2
from bs4 import BeautifulSoup

page = urllib2.urlopen("http://www.amazon.com/")
soup = BeautifulSoup(page)
print soup

适用于 google.com 和许多其他网站，但不适用于 amazon.com。

我可以在我的浏览器中打开 amazon.com，但生成的“汤”仍然没有。

此外，我发现它也不能从appannie.com上抓取。然而，代码并没有给出一个错误，而是返回了一个错误：

HTTPError: HTTP Error 503: Service Temporarily Unavailable

所以我怀疑亚马逊和App Annie是否会阻止抓取。

Answer 1

添加标题，然后它将起作用。

from bs4 import BeautifulSoup
import requests
url = "http://www.amazon.com/"

# add header
headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 6.3; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/54.0.2840.71 Safari/537.36'}
r = requests.get(url, headers=headers)
soup = BeautifulSoup(r.content, "lxml")
print soup

Answer 2

你可以试试这个：

import urllib2
from bs4 import BeautifulSoup

page = urllib2.urlopen("http://www.amazon.com/")
soup = BeautifulSoup(page)
print soup

在 python 中，任意文本称为字符串，必须用引号 (" ") 括起来。

Answer 3

我刚遇到这个，发现设置任何用户代理都可以。你不需要对你的用户代理撒谎。

response = HTTParty.get @url, headers: {'User-Agent' => 'Httparty'}

Answer 4

添加标题

import urllib2
from bs4 import BeautifulSoup

headers = {'User-agent': 'Mozilla/5.0 (Windows NT 6.2; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/37.0.2062.120 Safari/537.36'}

page = urllib2.urlopen("http://www.amazon.com/")
soup = BeautifulSoup(page)
print soup

为什么我不能通过 BeautifulSoup 抓取亚马逊？ [关闭]

问题描述投票：0回答：4

4个回答

最新问题

为什么我不能通过 BeautifulSoup 抓取亚马逊？ [关闭]

问题描述 投票：0回答：4

4个回答

最新问题

问题描述投票：0回答：4