我正在使用带有 Python 后端的 Triton 推理服务器,目前我发送 gRPC 请求。有谁知道我们如何使用Python后端进行流式传输(例如模型响应),因为我在文档中没有找到任何与流式传输相关的示例。
要将响应逐步流式传输到
tritonclient
相关部分
config.pbtxt file:
model_transaction_policy { decoupled: True }
这样,后端将能够为单个请求返回多个响应(如果需要),并使用生成的文本序列逐步更新客户端。
更多信息:文档 | 示例