我很困惑,为什么在Hadoop中使用Pig处理数据时,需要在Hadoop HDFS上再加一个存储层PigStorage?还有PigStorage中存储的文件是分布式的吗?谁能帮忙解释一下?
谢谢你。
PigStorage是 不存. 它不存储在任何地方;它读取和加载 明文档案.
LOAD 到Avro或ORC几乎总是更好的。
LOAD
它只是文件系统数据上的别名和模式的元数据(文件系统可以不只是HDFS)。
A = LOAD '/path/file.txt' USING PigStorage() // read plaintext from filesystem B = // do something with A LOAD B into '/path_orc' USING OrcStorage() // store ORC back on same filesystem