将4GB文件上传到Amazon-S3

Question

作为本科生研究项目，我正在做一些非常简单的数据挖掘（实际上只是一个词尾）。

我将使用Amazon Elastic MapReduce。

我需要上传4GB .xml文件。

最佳方法是什么？

上传小型zip文件并以某种方式将其解压缩到存储桶中？还是拆分文件，然后上传，然后使用所有小文件来流式传输MapReduce作业？

Answer 1

您应该将此xml放入一个sequencefile中并对其进行bzip2，或者对其进行bzip2并在云中解压缩。

Answer 2

如果要上传一个大文件，S3支持分段上传。有关更多详细信息，请从documentation page开始。