我在使用 databricks 中的池来执行 ETL 作业时遇到性能问题。 集群需要 5-6 分钟才能唤醒并加载 python 库,而 ETL 作业(pyspark-airflow)只需 20 秒。
系统上有unity-catalog。
我尝试使用专用集群来执行 ETL 作业,但没有任何改进。
有什么建议如何优化它并减少从池中唤醒集群所需的时间吗?