作为本科生研究项目,我正在做一些非常简单的数据挖掘(实际上只是一个词尾)。
我将使用Amazon Elastic MapReduce。
我需要上传4GB .xml文件。
最佳方法是什么?
上传小型zip文件并以某种方式将其解压缩到存储桶中?还是拆分文件,然后上传,然后使用所有小文件来流式传输MapReduce作业?
您应该将此xml放入一个sequencefile中并对其进行bzip2,或者对其进行bzip2并在云中解压缩。
如果要上传一个大文件,S3支持分段上传。有关更多详细信息,请从documentation page开始。