如何在 Databricks (PySpark) 中使用“com.crealytics.spark.excel”从 Excel 文件中提取工作表名称

问题描述 投票:0回答:1

我在 azure datalake 中有一个 Excel 文件,我已经阅读了如下的 excel 文件

ddff=spark.read.format("com.crealytics.spark.excel") \
               .option("header", "true")\
               .option("sheetName","__all__")\
               .option("inferSchema","true")\
               .load("abfss://[email protected]/file.xlsx")

现在我很困惑如何从那个 Excel 文件中获取工作表名称,有没有直接的函数可以做到这一点?

azure pyspark databricks azure-databricks
1个回答
0
投票

根据 github link for spark-excel.. 下面的代码应该可以工作 - 请尝试...代码直接取自 github 页面。

import com.crealytics.spark.excel.WorkbookReader
val sheetNames = WorkbookReader( Map("path" -> "Worktime.xlsx")
                               , spark.sparkContext.hadoopConfiguration
                               ).sheetNames
val df = spark.read.excel(
  header = true,
  dataAddress = sheetNames(0)
)
© www.soinside.com 2019 - 2024. All rights reserved.