从网站上的产品目录中搜集价格数据[关闭]

Question

我熟悉urllib，因为我在课堂上使用它来解析来自Google货币转换器的数据，但现在我想创建一个网络刮板，从这个网站nextworth.com获取价格。

正如你所看到的那样，它并不像从一个页面中获取数据那么容易（就像金价或其他类似的那样），但是有许多产品和许多问题需要回答以显示最终价格。这是它的工作方式：

1.访问该网站（http://www.nextworth.com）

那么你所拥有的是一系列问题，以便给你一个瞬时报价。因此，接下来的步骤将是

4.全面运作 - 是的

5.破解显示 - 没有

最后，显示价格。这就是我想要刮擦和储存的东西。现在我正在努力只获得完美条件项目的价格，因为它更容易，但请记住，如果第4步是否，我也会想要价格第5步否，或第4步 - 是和第5步 - 是的，等等

所以我想我的问题是，为这个程序编写代码背后的伪代码（逻辑步骤）是什么样的？这样做甚至是可行的，还是会花费很多代码？我应该从创建每个类别的几个函数开始，然后在其中我有每个产品（我觉得这将永远需要）。或者我应该为每个类别和嵌入式函数使用类？

编辑：我想我应该问一下Python是否会成为一个很好的语言，希望在Python中这样做是可行的，因为到目前为止我只知道它和C ++。

Answer 1

对于一般的网站抓取，你可以使用一个很好的webscraping module。好处是它可以利用QtWebkit模块，因此您甚至可以处理javascript繁重的站点。

考虑到这一点，虽然我必须在这种事情上警告你。

你正在做的是一个自动化的过程，根据你的要求看起来好像会打到很多页面。如果您没有从您正在废弃的网站获得许可，您可能会被阻止从他们的服务器上获取资源，这些资源可能会吸引他们关心的实时人类客户。

在这种情况下，您希望处理某种API。查看该网站是否具有API，因为只要您遵守其API规则，这些API对自动化流程更加友好。

Answer 2

Webscraping库要求您在您的情况下设置某种形式的库以及集成开发环境，您正在考虑为此选择python。

我们已经创建了一个webscraping作为服务平台，允许您使用automate webscraping in a few click。虽然我们仍在创建Chrome浏览器扩展程序，但我们将在本周末发布第一个版本。在您使用我们为您进行网络抓取之前，您只需编写几行JSON。