如果有一个 8G-RAM 的 GPU,并且加载了一个占用所有 8G RAM 的模型,是否可以并行运行多个模型预测/推理?
或者您只能在同一时间段运行预测
如果您的单个模型使用全部 8gb RAM,则不可能使用相同资源并行运行另一个模型。您将不得不分配更多内存或安排第二个模型在之后运行。
如果您只使用单个模型但有多个样本要运行推理/预测,则一种方法可能是使用批处理。您可以按一定的时间间隔(按时间或按案例)将单个预作业分组为一个批次。这将明确地为每个单独的预测任务引入延迟,但将使您的分布式预测任务更有效 ovral