在 pyspark databricks 中显示大数据框

问题描述 投票:0回答:1

我试图在一个包含 50000 行的表中显示所有值,但出现错误: java.lang.OutOfMemoryError: Java 堆空间 有没有办法增加内存来避免这个问题? (抱歉,如果这是一个简单的问题,我对此很陌生)

用于打印数据的代码:SkillsDF.printSchema() SkillsDF.show(n=50000) - 这适用于 >1000 行

pyspark out-of-memory bigdata large-data databricks-community-edition
1个回答
1
投票

要显示所有 50000 行,需要将数据收集到驱动程序以显示它们。但是,即使您能够增加此大小,也无济于事,因为 Databricks 笔记本对可以显示为单元格输出的数据量有限制。

在 Databricks 上最好使用

display(dataframe)
函数,但它也被限制为 1000 或 10000 行。如果你需要查看整个数据集,然后将它导出到 S3 或类似的东西,并使用其他工具来查看它。

© www.soinside.com 2019 - 2024. All rights reserved.