我正在制作一个语音聊天机器人。问题是我需要缩短与机器人交谈时完成句子和机器人开始响应之间的延迟,目前大约需要 6 秒。
使用 Sequential Sentence Chunking 和 OpenAI Whisper 语音转文本模型来解决这个问题?
使用GPT-4o模型而不是Whisper模型,如官方OpenAI博客中所述:
GPT-4o(“o”代表“omni”)是迈向更自然的一步 人机交互——它接受以下任意组合作为输入 文本、音频、图像和视频,并生成文本的任意组合, 音频和图像输出。 它可以在尽可能短的时间内响应音频输入 为 232 毫秒,平均为 320 毫秒,即 类似于人类的反应时间(在新窗口中打开) 对话。 它与 GPT-4 Turbo 在英文文本上的性能相匹配 和代码,对非英语文本有显着改进 语言,同时 API 也更快且便宜 50%。 相比之下,GPT-4o 在视觉和音频理解方面尤其出色 到现有型号。