Web剪贴，数据关键字

问题描述投票：0回答：1

我想通过在网站上查找一些特定数据来对它进行爬网。 Web爬虫是否支持关键字属性，例如：我想提取所有包含Java，PHP开发者一词的数据。是否有一些网络爬虫可以支持这些属性？

search web-scraping web-crawler bots

1个回答

0
投票

案例1

您假设html头部分meta包含关键字：

`<html> <head> <meta name="keywords" content="java, php, python, linux"> <head> <html>`

1。刮掉的不是整个网页，而是其中的一部分-第一个1000个字符。

检查此部分的关键字。例如，使用regex。 /java|php|linux|python/gi
[如果找到，请标记/保存此网址，以后再用于刮擦。

案例2

没有网页上感兴趣的带有关键字的元数据。 :-(只需使用正则表达式（参见上文）进行常规页面内容检索，即可检查整个页面文本中的关键字是否存在。

最新问题

© www.soinside.com 2019 - 2024. All rights reserved.