如何减少胶水etl作业(火花)实际开始执行所花费的时间?

问题描述 投票:0回答:1

我想开始一个胶水etl工作,虽然执行是公平的(时间问题),然而,胶水实际开始执行工作所花费的时间太多了。

我查看了各种文档和答案,但没有一个能给我解决方案。这种行为有一些解释:冷启动但没有解决方案。

我希望尽快完成工作,有时需要大约10分钟才能开始工作,并在2分钟内执行。

amazon-web-services apache-spark aws-glue
1个回答
3
投票

不幸的是现在不可能。胶水在引擎盖下使用EMR,并且需要一些时间来启动具有所需数量的执行程序的新群集。据我所知,他们有一些备用EMR集群和一些最常见的DPU配置,所以如果你很幸运,你的工作可以得到一个并立即启动,否则它将等待。

© www.soinside.com 2019 - 2024. All rights reserved.