通过文本转语音、Viseme 唇形同步和情感/手势制作实时逼真的 3D 头像

问题描述 投票:0回答:2

我过去曾使用过 Haptek,但现在已经不可用了。要查看我想做什么:ejTalk Cassandra

这个想法是发送一个带有“text-to-say(with ssml):avatar-emotion:avatar-gesture”的文本字符串,我将适应任何类型的标记。 ejTalk 引擎管理所有 ASR/NLP/Dialog/等。我想要的只是会说话的头。

它可以是基于浏览器的,或C++可链接库,或独立服务器但在Windows 10/11上运行。

我已经用 C++、Javascript 等编写了几十年的代码,所以我不会轻易害怕。

我正在研究 Unreal 和 Unity 引擎,但它们看起来像是重型平台,可能不适合由来自另一台服务器的文本字符串驱动。

javascript browser text-to-speech avatar conversational-ai
2个回答
8
投票

这是一个广泛的问题。以下是一些资源和示例:

集成了唇形同步动画(“视位”)生成头像的服务:

使用 3D 模型同步进行文本转语音的示例:

没有 3D 建模的示例,但展示了如何使用 ChatGPT 打造聊天体验(使用语音或文本),您可以推断如何与前面的示例中的 3D 模型集成:

  • QuiLLMan - 一个完整的聊天应用程序,使用 Whisper 实时转录音频,从语言模型流回响应,并将该响应合成为听起来自然的语音

如果您更喜欢原生,而不是使用 Web 技术,您可能可以从上面推断出如何在原生框架(Unity、Unreal 等)中加载 GLTF 模型,以及如何从原生代码调用演示中的 API达到同样的效果。


0
投票

现在的 SOTA 解决方案是支持视位的 Rive + TTS。 这些人制作人工智能角色/吉祥物,让你可以以最小的延迟与他们聊天。

© www.soinside.com 2019 - 2024. All rights reserved.