为网站链接scraper的自动化工具制造flogic 我有一个自动化任务。我们将维护带有一些网站链接的Google表(下面给出的示例)。每个链接都会有帖子或故事,包括Twitter或LinkedIn提要。我需要创建

问题描述 投票:0回答:1
我已经找出了步骤

的逻辑

但是我正在努力正确获取给定链接的所有URL。

我尝试使用RSS提要,但是许多站点没有它们,因此它无法正常工作。我还编写了一个刮板脚本来从URL中提取所有超链接,但是我面临问题,因为它提供了太多的链接,而且我没有一个很好的过滤器可以删除不需要的链接。有人对如何进行有想法吗?

https://news.google.com/search?q =网络%20秒&hl = en-us&gl = us&ceid = us&ceid = us%3aen
  1. https://techcrunch.com/category/artcate--intelligence/

https://x.com/search?q = hatifical%20intelligence&src = erash_search_click&f =live

https://seths.blog/

https://www.linkedin.com/in/robertbradleyai/

https://www.reuters.com/technology/cybersecurity/

这种方法可能会有所帮助:

beautifulsoup库可用于静态网站; snscrape for Twitter; LinkedIn API用于刮擦LinkedIn。

用于过滤使用关键字过滤 /正则不需要的链接的代码。 将提取的数据存储在Google表中(因为它是免费的)。使用Google Cloud Console访问它-Google SheesApi.

使用Windows中的任务调度程序Automate。
web-scraping web-crawler logic
1个回答
0
投票

最新问题
© www.soinside.com 2019 - 2025. All rights reserved.