如何抓取相关图像

问题描述 投票:0回答:1

如果我查看亚马逊按钮将商品添加到其网站上的列表中 - 您可以在这里看到它:

http://www.amazon.co.uk/wishlist/get-button

它是如何运作的?我很确定它会以某种方式抓取页面,但它似乎会获取每个图像,无论是 Flash 图像、jpg 还是其他任何图像,即使相关网站使用相对 img src 而不是绝对完整网站 url

下面的示例页面,显示的所有图像都是 jpg,这很酷,但所有 img src 都是相对的,意味着它们前面没有“http://blah.com”

http://gadgets.guardianoffers.co.uk/p-788-Casio-Solar-Powered-Edifice-Watch.html

除了解析html源之外,还有更好的方法来获取图像吗?

或者如果他们没有立即获得成功,他们只是在做一百万个如果?

javascript html parsing web-scraping dom
1个回答
0
投票

看起来它会解析页面的 HTML,并查找语义上标识为主图像、名称和价格的内容。例如,如果您查看一个没有任何电子商务产品的页面,例如:http://www.theglobeandmail.com/,它将页面 h1 元素作为产品名称和主图像(首页故事图像)作为产品图像。

所以他们在幕后做了很多猜测。使用 HTML 5 语义标记,您可以为此类事物建立标准,但除非每个人都在使用它,否则您只是做出有根据的猜测。

© www.soinside.com 2019 - 2024. All rights reserved.