这是一个开放式问题。我需要浏览一个工作网站并搜索工作描述标签和技能要求(我已经完成了)。我主要想知道,如何爬行整个网站?例如,从 test.com 转到 test.com/a 等等......?基本上,抓取页面。
这是我在页面内搜索的代码。我需要在网站中找到所有可能的此类页面并获取链接。这不是家庭作业。我只是在旁边做这个...
import urllib2
import re
html_content = urllib2.urlopen('http://www.ziprecruiter.com/job/Systems- Engineer/b5452eab/?source=customer-cpc-indeed').read()
matchDescription = re.findall('Bachelor', html_content);
matchSkill = re.findall('VMware', html_content);
print matchDescription
print matchSkill
if ( len(matchDescription) and len(matchSkill) )== 0:
print 'I did not find anything'
else:
print 'My string is in the html'
考虑使用
Scrapy
或其他一些现有的抓取框架。否则,您需要使用 lxml
或其他 HTML 解析器手动查找必要的链接,并使用基于 urllib
或类似内容的手动机制以及一些用于存储输入和输出数据的数据结构来抓取它们。