PigStorage在Hadoop中如何使用，为什么？

问题描述投票：0回答：1

我很困惑，为什么在Hadoop中使用Pig处理数据时，需要在Hadoop HDFS上再加一个存储层PigStorage？还有PigStorage中存储的文件是分布式的吗？谁能帮忙解释一下？

谢谢你。

hadoop apache-pig

1个回答

1
投票

PigStorage是不存. 它不存储在任何地方；它读取和加载 明文档案.

LOAD 到Avro或ORC几乎总是更好的。

它只是文件系统数据上的别名和模式的元数据（文件系统可以不只是HDFS）。

A = LOAD '/path/file.txt' USING PigStorage()  // read plaintext from filesystem
B = // do something with A
LOAD B into '/path_orc' USING OrcStorage()  // store ORC back on same filesystem

最新问题

© www.soinside.com 2019 - 2025. All rights reserved.