我正在使用Dataproc使用Scala实现spark作业。我的火花工作的目的是读取GCS中的数据进行一些转换,然后在GCS下写入结果数据。我们从spark写入的文件是PART-00,我想重命名它们,但我找不到任何解决方案,因为写入的文件在gcs而不是hdfs下。请知道如何解决这个问题。非常感谢。
在Dataproc集群上,除了使用完整的“gs:// bucket / filename ...”路径之外,您仍然可以像对待HDFS一样对GCS运行相同的hadoop fs -mv命令。
hadoop fs -mv