这已经是以前的post讨论的对象,但是,我不相信答案,因为Google docs指定可以创建一个设置fs.defaultFS属性的集群。而且,即使可以以编程方式设置此属性,有时也可以从命令行设置它。
所以我想知道为什么传递给我的集群创建命令时以下选项不起作用:--properties core:fs.defaultFS=gs://my-bucket
?请注意我没有包含所有参数,因为我在没有前一个标志的情况下运行命令,并且它成功创建了集群。然而,当传递这个时,我得到:“失败:无法启动主数据:数据节点报告数量不足。”
如果有人设法通过设置fs.defaultFS来创建数据集群,那会很棒吗?谢谢。
确实存在由于对实际HDFS的某些依赖性而存在的已知问题;这些文档并不意味着在集群创建时将fs.defaultFS设置为GCS路径会起作用,而只是提供一个在core-site.xml
中出现的属性的便捷示例;理论上,它可以将fs.defaultFS
设置为不同的预先存在的HDFS集群。我已经提交了一张票据来更改文档中的示例以避免混淆。
两种选择:
fs.defaultFS
fs.defaultFS
来解决一些已知问题。可以更好地理解选项1,因为集群级HDFS依赖性不会改变。选项2有效,因为大多数不兼容性仅在初始启动期间发生,初始化操作在相关守护程序启动后运行。要覆盖init操作中的设置,您需要使用bdconfig
:
bdconfig set_property \
--name 'fs.defaultFS' \
--value 'gs://my-bucket' \
--configuration_file /etc/hadoop/conf/core-site.xml \
--clobber