我正在尝试用网址中的?, =, #
抓取一个网站。当我这样做时,我将被重定向。我认为我已经将问题范围缩小到#
。我认为它正在尝试对#
进行百分比编码。就我而言,它不是锚,它在许多页面上的排序项目编辑:我认为是导致错误的requests,并且#通常是仅客户端参数,没有发送到服务器
工作网址
www.foo.com /
www.foo.com/example
www.foo.com/example/search?q =&%5B%5D
错误的URL(即使在浏览器中,也会拉起相同的无错误页面)>>
www.foo.com/example/#page1
www.foo.com/example/%23page1(百分比编码的#)
www.foo.com/example/something_that_does_not_exsit
response = requests.get(r"www.foo.com/example/#page1") response.url soup = BeautifulSoup(response.text, 'html.parser')
我正在尝试使用网址中的?,=,#抓取网站。当我这样做时,我将被重定向。我认为我已将问题字符缩小为#。我认为它正在尝试对#进行百分比编码。就我而言...
您检查过吗?可能有用,请查看Selenium。