我有一个带有容器的 gen2 帐户。容器内有一个文件夹,文件夹内有8个分区的子文件夹。存储帐户结构如下。 存储帐户/ 容器/ 文件夹/ 8 个子文件夹/
我正在使用 Databricks 来转换我的数据集。我已将存储帐户安装到 databricks 上。(/mnt/container/folder/) 我已使用代码 (display(dbutils.fs.mounts())) 来检查文件夹是否已安装(确实如此)。 我正在尝试将 csv 数据集作为镶木地板保存到分区的子文件夹中(每个子文件夹一个文件),但是它仅将文件保存在文件夹级别内,而不是保存到子文件夹级别中。 如何将文件保存到分区的子文件夹中?
嘿,如果您的挂载位于文件夹级别,您的写入函数应该如下所示:
dfCsv.write.mode('overwrite').partitionBy('ColumnYouWantFromTheDataset').parquet('/mnt/container/folder/')
这将根据您要用于进行分区的数据集中的列创建子文件夹。