如何从网站提取数据，包括Python中的所有内部链接

问题描述投票：0回答：1

我想从网站中提取所有信息，包括其内部链接，以便阻止该网站的聊天机器人。我该怎么做？

我已经废弃了主网站，例如https://www.uetmardan.edu.pk/uetm/，但我也想废弃其所有内部链接数据

from bs4 import BeautifulSoup
import requests

url =  https://www.uetmardan.edu.pk/uetm/
response.raise_for_status()
soup = BeautifulSoup(response.content, 'html.parser')
data = soup.get_text(separator='\n')

web-scraping nlp chatbot langchain rag

1个回答

0
投票

理想情况下，您会找到站点地图，否则您也可以专注于页面上包含的链接。在抓取时创建一组网址并关注您尚未抓取的网址。

链接提取示例：

set([link.get('href') for link in soup.select('a[href*="uetmardan.edu.pk/uetm"]')])

最新问题

© www.soinside.com 2019 - 2024. All rights reserved.