我们在 Microsoft Fabric 上创建了 Lakehouse。它有一堆表格和文件。
在 Lakehouse 资源管理器中,只需单击“文件”中的相关文件夹或文件即可查看文件大小。
但是,我想知道“表格”部分中每个表格的大小。
如何在 pyspark 笔记本中执行此操作? (我对pyspark不是很熟悉)
您可以使用mssparkutils来获取文件信息。 例如:
from notebookutils import mssparkutils
delta_table_path = f"abfss://"
# List all folders in the specified directory
folders = mssparkutils.fs.ls(delta_table_path)
for folder in folders:
if folder.isDir:
delta_table_name = folder.name
print(f"Delta table is: {delta_table_name} ")
# List all files in the specified folder
files = mssparkutils.fs.ls(delta_table_path+delta_table_name)
for file in files:
if file.isFile:
print(f"Parquet file {file.name}, last updated date is: {file.modifyTime} size is: {file.size / (1024 ** 2):.2f} MB")