我想从网站中提取所有信息,包括其内部链接,以便阻止该网站的聊天机器人。我该怎么做?
我已经废弃了主网站,例如https://www.uetmardan.edu.pk/uetm/,但我也想废弃其所有内部链接数据
from bs4 import BeautifulSoup
import requests
url = https://www.uetmardan.edu.pk/uetm/
response.raise_for_status()
soup = BeautifulSoup(response.content, 'html.parser')
data = soup.get_text(separator='\n')
理想情况下,您会找到站点地图,否则您也可以专注于页面上包含的链接。在抓取时创建一组网址并关注您尚未抓取的网址。
链接提取示例:
set([link.get('href') for link in soup.select('a[href*="uetmardan.edu.pk/uetm"]')])