我正试图抓取包含部件图像的部分网站的一部分,以收集一些统计数据。但是,没有网址或图片上传或创建日期,因此我必须使用近似图像文件修改日期来获取此信息。使用cURL,这是一项简单的任务:
curl -sI https://path.to.com/blahblah_123/item_picture.jpg |grep "last-modified"
但是,我认为在scrapy蜘蛛中获得它会更方便。但我不知道scrapy是否支持这一点,因为我在文档中找不到它。
有没有办法在scrapy中获取刮削图像的最后修改日期?
从Scrapy的文档中,response
有一个headers
字典。
所以你可以用last-modified
访问response.headers.get('Last-Modified')
。