我应该创建一些代码,允许我从不同的站点下载数据(例如:WHO,Unicef,Eurostat,...),然后将这些数据转换为我认为有用的格式,例如JSON
。 (如果我理解正确,那就意味着要进行网络抓取,对吧?)。
数据可以采用不同的格式:html
,PDF
,xlsx
,tsv
,csv
等。例如:
我需要处理它们并将它们转换成统一格式,以便可以对它们进行比较。
显然,数据收集可以手动完成,但我更喜欢自动程序,可以为我做。
我从来没有做过这样的事情,我不知道如何开始。
目前,我只使用客户端Javascript
,我对服务器端编程知之甚少。他们建议我使用Node.js
,Express.js
和MongoDB
。我已经读过MEAN
存在:用于构建动态网站和Web应用程序的JavaScript软件,但我不知道如何使用它。
我从来没有使用过Node.js
,Express.js
和MongoDB
。我很高兴学习但我需要帮助。
有人能帮我吗?我没有找到完成我案例的教程或指南。
谢谢!
你只需要与URL对话的东西。您可以使用Node.js或任何其他框架来执行此操作,该框架提供与URL通信的功能。之后,您可以根据需要编写解析器来清理数据。
以下是该页面的链接,该页面描述了如何在Node中执行此操作。
In Node.js / Express, how do I "download" a page and gets its HTML?