(Py)Spark框架中数据帧中数据的可视化

问题描述 投票:2回答:2

关于Spark DataFrames方法的可视化的问题。

目前(我使用2.0.0版),Spark DataFrames还没有任何可视化功能。通常,解决方案是将DataFrame的某些sample收集到驱动程序中,例如将其加载到Pandas DataFrame中,并使用其可视化功能。

我的问题是:我如何知道最大程度地利用驱动程序内存以可视化数据的最佳采样大小?或者,解决此问题的最佳实践是什么?

谢谢!

apache-spark pyspark data-visualization spark-dataframe
2个回答
0
投票

我认为这不会回答您的问题,但希望可以为其他人或您提供一些观点。

我通常聚集在spark上,然后使用Pandas进行可视化(但不要将其存储到变量中)。在示例(简化)中,我将每天统计活动用户,然后仅通过熊猫收集并可视化此计数(在可能的情况下,我会尽量避免将数据保存到变量中):

(
spark.table("table_name")
.filter(F.col("status") == "Active")
.groupBy("dt")
.count()
.toPandas()
.plot(x="dt", y="count")
)

0
投票

Spark SQL(Dataframes)顶部有可视化工具,为此您可以使用Apache Zeppelin笔记本,它是开源笔记本,您可以在其中以图形格式查看结果的可视化。

关于这款笔记本电脑的好处,它内置了对Spark集成的支持,因此无需进行任何配置。至于其他问题,关于内存采样Zeppenlin笔记本与此随手可得。有关zeppenlin笔记本电脑Spark支持的更多信息,请参考此link

© www.soinside.com 2019 - 2024. All rights reserved.