dataproc重命名由GCS文件夹中的spark写入的文件

Question

我正在使用Dataproc使用Scala实现spark作业。我的火花工作的目的是读取GCS中的数据进行一些转换，然后在GCS下写入结果数据。我们从spark写入的文件是PART-00，我想重命名它们，但我找不到任何解决方案，因为写入的文件在gcs而不是hdfs下。请知道如何解决这个问题。非常感谢。

Answer 1

在Dataproc集群上，除了使用完整的“gs：// bucket / filename ...”路径之外，您仍然可以像对待HDFS一样对GCS运行相同的hadoop fs -mv命令。