我正在运行一个独立的Spark集群,并在客户端模式下使用spark-submit
提交我的应用程序(用SparkR编写)。我有一组应用程序,我必须根据用户的输入运行,所以我不能让它们继续运行。每次提交申请并开始处理数据,需要15-20秒。
这次可以以任何方式减少吗?我在驱动程序机器上读到了having a webserver,但不知道如何做到这一点。此外,我没有使用任何集群管理器(如YARN),只是一个独立的集群。
另外,客户端或集群上的资源(如CPU内核和内存)会影响此启动时间吗?
使用Spark作业服务器跨应用程序共享SparkContexts可以帮助您减少启动时间。 (我不确定你是否需要这个,因为你的启动时间大约是20秒。)
提供上下文共享的流行Spark作业服务器是:
另外,客户端或集群上的资源(如CPU内核和内存)会影响此启动时间吗?
并不是的。可用资源应仅影响应用程序的执行时间。