使用预先转录的文本作为指导在Python中执行语音转文本

问题描述 投票:1回答:1

我正在开发一个python应用程序,该应用程序旨在根据演员在屏幕上的讲话来对齐视频片段。

例如,我有一个场景,演员从剧本中阅读对话。他们进行了3分钟的场景10次。

我目前正在使用语音转文字来转录他们所说的内容,但是由于演员们反复阅读相同的对话,所以我想使用预先转录的对话(电影脚本)来帮助指导语音转文字引擎更准确。

例如:“您是在告诉我您是用Delorean制造时间机器吗?”

语音转换返回文字:“您是在说我,是在日光照射下建造时间机器吗?”

我应该能够找出错误所在,并使用原始脚本估计正确的行,并将所有内容都锁定在电影脚本中。

我目前在Python中使用CMUSphinx来获取我的STT数据,并且效果很好。但是我在下一部分的逻辑上遇到了麻烦。

我将很快发布一些代码!

编辑:发现我正在寻找的搜索词是“音频对齐器”和“长音频对齐器”。这些似乎是某些STT软件包中包含的工具。特别是CMUSphinx可能具有内置的功能。对此进行探索。

python-3.x speech-recognition cmusphinx
1个回答
0
投票

我为此找到了一个很好的来源。这是我可以找到的最佳资源:

https://github.com/lowerquality/gentle

它满足了我所需的一切,并完成了出色的工作。

© www.soinside.com 2019 - 2024. All rights reserved.