我试图在一个包含 50000 行的表中显示所有值,但出现错误: java.lang.OutOfMemoryError: Java 堆空间 有没有办法增加内存来避免这个问题? (抱歉,如果这是一个简单的问题,我对此很陌生)
用于打印数据的代码:SkillsDF.printSchema() SkillsDF.show(n=50000) - 这适用于 >1000 行
要显示所有 50000 行,需要将数据收集到驱动程序以显示它们。但是,即使您能够增加此大小,也无济于事,因为 Databricks 笔记本对可以显示为单元格输出的数据量有限制。
在 Databricks 上最好使用
display(dataframe)
函数,但它也被限制为 1000 或 10000 行。如果你需要查看整个数据集,然后将它导出到 S3 或类似的东西,并使用其他工具来查看它。