代码的基础知识如下。我知道我是如何检索这些页面适用于其他URL的,因为我只是编写了一个以相同方式抓取不同页面的脚本。但是,对于这个特定的URL,它一直在我脸上抛出“urllib.error.HTTPError:HTTP错误404:找不到”。我用不同的URL(https://www.premierleague.com/clubs)替换了URL,它完全正常。我对python很新,所以也许我找不到一个非常基本的步骤或知识,但我在网上发现的与此相关的资源似乎并不相关。任何建议都会很棒,谢谢。
以下是该脚本的准系统:
import bs4
from urllib.request import urlopen as uReq
from bs4 import BeautifulSoup as soup
import csv
myurl = "https://www.transfermarkt.co.uk/premier-league/startseite/wettbewerb/GB1"
uClient = uReq(myurl)
问题很可能是您尝试访问的网站正在积极阻止蜘蛛爬行;您可以更改用户代理以规避它。有关更多信息,请参阅this question(该帖子中规定的解决方案似乎也适用于您的URL)。
如果你想使用urllib this post告诉你如何改变用户代理。