我想要一个语音识别API或SDK来识别用户所说的语音并给出它的文本形式。
详细说明如下:
在我的应用程序中,我需要播放我已经存在的音频文件和文本。当音频开始播放时,应突出显示说出的单词(来自音频文件)。
因此,如果我能够从 API 或 SDK 获取该词,那么就可以突出显示它。
除了我在 Google 上搜索了很多 API,我发现了 ceedvocalsdk,但它不提供免费试用。
除了这个适合我的要求或API或SDK之外,有人可以提供任何想法吗?
你可以看看https://github.com/KingOfBrian/VocalKit,但我自己没有尝试过。
您也可以尝试 Nexiwave.com。
我认为您正在寻找的功能就是我们可以时间戳的功能: http://nexiwave.com/index.php/applications/for-transcription-companies
它基本上采用音频和文本,然后我们在每个句子和单词上添加时间戳。
本