对子目录中的 xml 文件使用 spark.read.from("xml").option("recursiveFileLookup", "true")

问题描述 投票:0回答:0

我想递归地将所有 xml 格式的文件加载到我的数据框中,该目录位于具有其他子目录的目录中。 对于其他文件格式(txt、parquet、..),代码似乎有效。

df = (
    spark.read
    .format("xml")
    .option("rowTag", "library")
    .option("wholetext", "true")
    .option("recursiveFileLookup","true")
    .option("pathGlobFilter", "*.xml")
    .load("path/to/dir")
)

我用不同的文件格式测试了这段代码,但是没有找到 xml 文件。

xml apache-spark pyspark databricks
© www.soinside.com 2019 - 2024. All rights reserved.