使用 Python 后端从 Triton 推理服务器流式传输响应

Question

我正在使用带有 Python 后端的 Triton 推理服务器，目前我发送 gRPC 请求。有谁知道我们如何使用Python后端进行流式传输（例如模型响应），因为我在文档中没有找到任何与流式传输相关的示例。

Answer 1

要将响应逐步流式传输到

tritonclient

（例如，它们是由 LLM 模型生成的），您可以使用 Triton Python 后端的解耦模式：

相关部分

config.pbtxt file:

model_transaction_policy {
  decoupled: True
}

这样，后端将能够为单个请求返回多个响应（如果需要），并使用生成的文本序列逐步更新客户端。

更多信息：文档 | 示例