urllib.request上的Python 404'ing

问题描述 投票:0回答:1

代码的基础知识如下。我知道我是如何检索这些页面适用于其他URL的,因为我只是编写了一个以相同方式抓取不同页面的脚本。但是,对于这个特定的URL,它一直在我脸上抛出“urllib.error.HTTPError:HTTP错误404:找不到”。我用不同的URL(https://www.premierleague.com/clubs)替换了URL,它完全正常。我对python很新,所以也许我找不到一个非常基本的步骤或知识,但我在网上发现的与此相关的资源似乎并不相关。任何建议都会很棒,谢谢。

以下是该脚本的准系统:

import bs4
from urllib.request import urlopen as uReq
from bs4 import BeautifulSoup as soup
import csv

myurl = "https://www.transfermarkt.co.uk/premier-league/startseite/wettbewerb/GB1"

uClient = uReq(myurl)
python web-scraping
1个回答
1
投票

问题很可能是您尝试访问的网站正在积极阻止蜘蛛爬行;您可以更改用户代理以规避它。有关更多信息,请参阅this question(该帖子中规定的解决方案似乎也适用于您的URL)。

如果你想使用urllib this post告诉你如何改变用户代理。

© www.soinside.com 2019 - 2024. All rights reserved.