我需要为生产环境设置一个独立模式的 Apache Spark 集群。对于此任务,我只有三个可用节点。每个节点有:
没有适用于像我需要配置的小型集群的示例文档。间接地,我推断建议为工作节点和主节点设置单独的服务器,但我不确定是否确实如此。
在没有明确方向的情况下,我想到了这两个选择:
我尝试在Spark论坛和官方文档中搜索。
Master 通常不需要太多计算,它只跟踪工人的健康状况,如果您不使用收集等任何操作,则驾驶员的情况类似。如果您的 Spark 应用程序是按照鼓励并行性的 Spark 模式进行编码的,那么主要的繁重工作将由工作人员和执行人员完成。 如果是批处理作业,则从 1 核主控和 1 核驱动程序开始;如果是流处理作业,则最多使用 2 核驱动程序。