将4GB文件上传到Amazon-S3

问题描述 投票:3回答:2

作为本科生研究项目,我正在做一些非常简单的数据挖掘(实际上只是一个词尾)。

我将使用Amazon Elastic MapReduce。

我需要上传4GB .xml文件。

最佳方法是什么?

上传小型zip文件并以某种方式将其解压缩到存储桶中?还是拆分文件,然后上传,然后使用所有小文件来流式传输MapReduce作业?

xml amazon-s3 amazon-ec2 hadoop mapreduce
2个回答
0
投票

您应该将此xml放入一个sequencefile中并对其进行bzip2,或者对其进行bzip2并在云中解压缩。


0
投票

如果要上传一个大文件,S3支持分段上传。有关更多详细信息,请从documentation page开始。

© www.soinside.com 2019 - 2024. All rights reserved.