我有一个 Databricks 集群,配置为至少 1 个工作线程,最多 4 个工作线程,并启用了自动扩展。我的 Ray 配置 (setup_ray_cluster) 应该怎样才能充分利用集群的容量?
import ray
from ray.util.spark import setup_ray_cluster, shutdown_ray_cluster
try:
shutdown_ray_cluster()
except:
pass
_, cluster_address = setup_ray_cluster(num_worker_nodes=4, autoscale=True)
ray.init(cluster_address , ignore_reinit_error=True)
根据文档,
如果您的ray版本低于2.10,
是您设置num_worker_nodes
时的最大工作节点数,最小工作节点数默认为零。autoscale=True
如果ray版本在2.10以上,您可以如下设置集群的最小和最大工作节点数。
from ray.util.spark import setup_ray_cluster, shutdown_ray_cluster
setup_ray_cluster(min_worker_nodes=1,max_worker_nodes=4,collect_log_to_path="/dbfs/path/to/ray_collected_logs")
ray.init(cluster_address , ignore_reinit_error=True)
上述代码也引用自同一文档。
如果没有指定
min_worker_nodes
,上面的集群将成为一个固定大小的集群,工作节点数量为max_worker_nodes
。
您可以在下面看到相同的内容,我给出了
2
和 8
作为工作节点的最小和最大数量。