设置fs.defaultFS属性时无法创建Dataproc集群?

问题描述 投票:0回答:1

这已经是以前的post讨论的对象,但是,我不相信答案,因为Google docs指定可以创建一个设置fs.defaultFS属性的集群。而且,即使可以以编程方式设置此属性,有时也可以从命令行设置它。

所以我想知道为什么传递给我的集群创建命令时以下选项不起作用:--properties core:fs.defaultFS=gs://my-bucket?请注意我没有包含所有参数,因为我在没有前一个标志的情况下运行命令,并且它成功创建了集群。然而,当传递这个时,我得到:“失败:无法启动主数据:数据节点报告数量不足。”

如果有人设法通过设置fs.defaultFS来创建数据集群,那会很棒吗?谢谢。

apache-spark hadoop google-cloud-dataproc
1个回答
2
投票

确实存在由于对实际HDFS的某些依赖性而存在的已知问题;这些文档并不意味着在集群创建时将fs.defaultFS设置为GCS路径会起作用,而只是提供一个在core-site.xml中出现的属性的便捷示例;理论上,它可以将fs.defaultFS设置为不同的预先存在的HDFS集群。我已经提交了一张票据来更改文档中的示例以避免混淆。

两种选择:

  1. 只需使用每个作业属性在作业提交时覆盖fs.defaultFS
  2. 通过使用初始化操作而不是群集属性显式设置fs.defaultFS来解决一些已知问题。

可以更好地理解选项1,因为集群级HDFS依赖性不会改变。选项2有效,因为大多数不兼容性仅在初始启动期间发生,初始化操作在相关守护程序启动后运行。要覆盖init操作中的设置,您需要使用bdconfig

bdconfig set_property \
    --name 'fs.defaultFS' \
    --value 'gs://my-bucket' \
    --configuration_file /etc/hadoop/conf/core-site.xml \
    --clobber
© www.soinside.com 2019 - 2024. All rights reserved.