我正在研究网络爬虫,通过 API 进行爬网并将 XML 解析为 XML 或 CSV 文件。
我一直在尝试处理来自一些 API 源的请求,但如果我不必手动执行此操作并使用某些东西自动执行此操作并稍后编辑数据,那就太好了。
例如,使用名为 eventful 的网站的 API,我可以请求“?XML feed?”数据
http://api.eventful.com/rest/events/search?app_key=LksBnC8MgTjD4Wc5&location=pittsburgh&date=Future
如果您检查链接,您会发现发回了大量 XML 数据。
我认为,由于 XML 数据已经按元素细分,因此要求爬虫处理排序不会那么困难(例如,城市元素会将所有数据发送到 CSV 文档中的城市字段)。
我想知道是否有人使用现有的开源网络爬虫来抓取 API 并将解析后的数据关联到类似 Excel 的格式......
我查看了 Nutch,但在文档中找不到任何参考来根据 API feed 返回的元素将 XML 返回排序为类似 Excel 的文档。
以前有人做过类似的事情吗?你能推荐一个程序吗?具体细节真的很有帮助。
我们http://import.io/有一个类似于mozenda的免费解决方案,您使用我们的网络浏览器构建API,然后您可以将API上传到我们的服务器并免费使用。我们还提供爬虫和各种其他功能。检查一下,看看你的想法:)
P.S 我在 import.io 工作,如果你还没有明白的话。
我找到了一个名为 Mozenda 的付费解决方案......
如果我能找到开源的东西,我会更新