A
Spark DataFrame
具有 .columns
属性:
dataFrame.columns
A
DeltaTable
没有。请注意,后者基于 parquet
文件/目录,并且 parquet
s 是自描述的,因此列信息 is 至少在文件本身中可用。因此,柱状信息 should 可从 DeltaTable
访问/可用。即使使用调试器深入其受保护/私有属性,我也无法找到任何东西。我想知道使用这些构造的方法是什么?
DeltaTable
对象的实例具有 .toDF
函数(doc),可用于创建一个 DataFrame 实例,您可以在该实例上调用 .columns
.
tbl = DeltaTable.forPath(spark, "...")
tbl.toDF().columns
附言虽然扩展
.detail
函数以返回表的架构会很好 - 也许您可以为它提交功能请求。
我知道的一种方法是使用 sql 语法如下,但您也可以在 spark.sql 中编写它。
描述表扩展表名
执行上述命令将为您提供有关列名、数据类型、注释、镶木地板文件的物理位置、分区信息(如果有)以及更多详细信息的所有详细信息。