从Spark的角度来看,Yarn调度程序真的不同吗?

问题描述 投票:0回答:1

纱线有两个着名的调度员,Fair SchedulerCapacity Scheduler。粗略地说,Capacity将群集划分为预定义的队列,从而保证每个队列的资源,Fair调度程序还将群集划分为队列,并在队列之间和队列内部均匀地共享资源。

现在,进一步了解每个调度程序的详细信息,我们看到:

  1. 它们中的每一个都允许群集的不均匀划分(公平的权重和资源分数以及容量百分比)
  2. 它们中的每一个都支持队列应用程序调度中的FIFO和FAIR
  3. 两者都支持基于内存和DRF的资源使用计算

我猜他们都“成长”到这种情况,其中每个人都添加了功能。但截至今天,它们之间是否有任何区别?

附:我从使用Yarn管理Spark的上下文中提出问题

编辑:在建议重复之后,我将解释为什么虽然类似,但它没有完全回答这个问题,首先,答案是不准确的,例如,应用程序被分配到队列,而不是作业。最具信息性的答案有一个比较表,实际上是从quora answer获得的,它是正确的,但可以追溯到2014 - 2016年,在取得开发进展的同时,它也无关紧要。

apache-spark yarn scheduling
1个回答
1
投票

Nodel标签是主要标签。如果要针对具有其他功能(GPU,软件许可证,更高端硬件......)的一组计算机运行特定作业,则需要立即使用Capacity Scheduler。 Fair Scheduler可能会在稍后开始,但AFAIK仍然在进行中。

相关的JIRA是:

就历史而言,Capacity Scheduler起源于Yahoo!然后由雅虎在HortonWorks维护!剥离HortonWorks。 Cloudera投资于Fair Scheduler。我不确定HortonWorks和Cloudera合并后的未来是什么。

© www.soinside.com 2019 - 2024. All rights reserved.