我想通过在网站上查找一些特定数据来对它进行爬网。 Web爬虫是否支持关键字属性,例如:我想提取所有包含Java,PHP开发者一词的数据。是否有一些网络爬虫可以支持这些属性?
您假设html头部分meta
包含关键字:
<html>
<head>
<meta name="keywords" content="java, php, python, linux">
<head>
<html>
1。刮掉的不是整个网页,而是其中的一部分-第一个1000个字符。
检查此部分的关键字。例如,使用regex。
/java|php|linux|python/gi
[如果找到,请标记/保存此网址,以后再用于刮擦。