使用 Python 后端从 Triton 推理服务器流式传输响应

问题描述 投票:0回答:1

我正在使用带有 Python 后端的 Triton 推理服务器,目前我发送 gRPC 请求。有谁知道我们如何使用Python后端进行流式传输(例如模型响应),因为我在文档中没有找到任何与流式传输相关的示例。

python streaming nvidia inference tritonserver
1个回答
0
投票

要将响应逐步流式传输到

tritonclient
(例如,它们是由 LLM 模型生成的),您可以使用 Triton Python 后端的解耦模式

相关部分

config.pbtxt file:

model_transaction_policy {
  decoupled: True
}

这样,后端将能够为单个请求返回多个响应(如果需要),并使用生成的文本序列逐步更新客户端。

更多信息:文档 | 示例

© www.soinside.com 2019 - 2024. All rights reserved.