我想递归地将所有 xml 格式的文件加载到我的数据框中,该目录位于具有其他子目录的目录中。 对于其他文件格式(txt、parquet、..),代码似乎有效。
df = (
spark.read
.format("xml")
.option("rowTag", "library")
.option("wholetext", "true")
.option("recursiveFileLookup","true")
.option("pathGlobFilter", "*.xml")
.load("path/to/dir")
)
我用不同的文件格式测试了这段代码,但是没有找到 xml 文件。