我过去曾使用过 Haptek,但现在已经不可用了。要查看我想做什么:ejTalk Cassandra
这个想法是发送一个带有“text-to-say(with ssml):avatar-emotion:avatar-gesture”的文本字符串,我将适应任何类型的标记。 ejTalk 引擎管理所有 ASR/NLP/Dialog/等。我想要的只是会说话的头。
它可以是基于浏览器的,或C++可链接库,或独立服务器但在Windows 10/11上运行。
我已经用 C++、Javascript 等编写了几十年的代码,所以我不会轻易害怕。
我正在研究 Unreal 和 Unity 引擎,但它们看起来像是重型平台,可能不适合由来自另一台服务器的文本字符串驱动。
这是一个广泛的问题。以下是一些资源和示例:
集成了唇形同步动画(“视位”)生成头像的服务:
使用 3D 模型同步进行文本转语音的示例:
没有 3D 建模的示例,但展示了如何使用 ChatGPT 打造聊天体验(使用语音或文本),您可以推断如何与前面的示例中的 3D 模型集成:
如果您更喜欢原生,而不是使用 Web 技术,您可能可以从上面推断出如何在原生框架(Unity、Unreal 等)中加载 GLTF 模型,以及如何从原生代码调用演示中的 API达到同样的效果。
现在的 SOTA 解决方案是支持视位的 Rive + TTS。 这些人制作人工智能角色/吉祥物,让你可以以最小的延迟与他们聊天。