我正在开发一个python应用程序,该应用程序旨在根据演员在屏幕上的讲话来对齐视频片段。
例如,我有一个场景,演员从剧本中阅读对话。他们进行了3分钟的场景10次。
我目前正在使用语音转文字来转录他们所说的内容,但是由于演员们反复阅读相同的对话,所以我想使用预先转录的对话(电影脚本)来帮助指导语音转文字引擎更准确。
例如:“您是在告诉我您是用Delorean制造时间机器吗?”
语音转换返回文字:“您是在说我,是在日光照射下建造时间机器吗?”
我应该能够找出错误所在,并使用原始脚本估计正确的行,并将所有内容都锁定在电影脚本中。
我目前在Python中使用CMUSphinx来获取我的STT数据,并且效果很好。但是我在下一部分的逻辑上遇到了麻烦。
我将很快发布一些代码!
编辑:发现我正在寻找的搜索词是“音频对齐器”和“长音频对齐器”。这些似乎是某些STT软件包中包含的工具。特别是CMUSphinx可能具有内置的功能。对此进行探索。