如何从网站提取数据,包括Python中的所有内部链接

问题描述 投票:0回答:1

我想从网站中提取所有信息,包括其内部链接,以便阻止该网站的聊天机器人。我该怎么做?

我已经废弃了主网站,例如https://www.uetmardan.edu.pk/uetm/,但我也想废弃其所有内部链接数据

from bs4 import BeautifulSoup
import requests

url =  https://www.uetmardan.edu.pk/uetm/
response.raise_for_status()
soup = BeautifulSoup(response.content, 'html.parser')
data = soup.get_text(separator='\n')
web-scraping nlp chatbot langchain rag
1个回答
0
投票

理想情况下,您会找到站点地图,否则您也可以专注于页面上包含的链接。在抓取时创建一组网址并关注您尚未抓取的网址。

链接提取示例:

set([link.get('href') for link in soup.select('a[href*="uetmardan.edu.pk/uetm"]')])
© www.soinside.com 2019 - 2024. All rights reserved.