使用预先转录的文本作为指导在Python中执行语音转文本

Question

我正在开发一个python应用程序，该应用程序旨在根据演员在屏幕上的讲话来对齐视频片段。

例如，我有一个场景，演员从剧本中阅读对话。他们进行了3分钟的场景10次。

我目前正在使用语音转文字来转录他们所说的内容，但是由于演员们反复阅读相同的对话，所以我想使用预先转录的对话（电影脚本）来帮助指导语音转文字引擎更准确。

例如：“您是在告诉我您是用Delorean制造时间机器吗？”

语音转换返回文字：“您是在说我，是在日光照射下建造时间机器吗？”

我应该能够找出错误所在，并使用原始脚本估计正确的行，并将所有内容都锁定在电影脚本中。

我目前在Python中使用CMUSphinx来获取我的STT数据，并且效果很好。但是我在下一部分的逻辑上遇到了麻烦。

我将很快发布一些代码！

编辑：发现我正在寻找的搜索词是“音频对齐器”和“长音频对齐器”。这些似乎是某些STT软件包中包含的工具。特别是CMUSphinx可能具有内置的功能。对此进行探索。

Answer 1

我为此找到了一个很好的来源。这是我可以找到的最佳资源：

它满足了我所需的一切，并完成了出色的工作。