Web剪贴,数据关键字

问题描述 投票:0回答:1

我想通过在网站上查找一些特定数据来对它进行爬网。 Web爬虫是否支持关键字属性,例如:我想提取所有包含Java,PHP开发者一词的数据。是否有一些网络爬虫可以支持这些属性?

search web-scraping web-crawler bots
1个回答
0
投票
案例1

您假设html头部分meta包含关键字:

<html> <head> <meta name="keywords" content="java, php, python, linux"> <head> <html>

1。刮掉的不是整个网页,而是其中的一部分-第一个1000个字符。

检查此部分的关键字。例如,使用regex/java|php|linux|python/gi

    [如果找到,请标记/保存此网址,以后再用于刮擦。
  • 案例2
  • 没有网页上感兴趣的带有关键字的元数据。 :-(只需使用正则表达式(参见上文)进行常规页面内容检索,即可检查整个页面文本中的关键字是否存在。
  • © www.soinside.com 2019 - 2024. All rights reserved.