在 Azure 中是否有可能,或者 Azure 中是否有服务可以用来根据源视频的口语获取每个纯文本的位置?
基本上,我有一个纯文本,其中包含手动转录的单词。现在,这些文本将用于创建字幕,并且每个文本的每个时间都应取自音频源。
示例:
srt 格式 00:00:01,002 -> 00:00:05,010 --> 这是取自视频源 敏捷的棕色狐狸跳过了懒狗。 --> 在文本文件中手动编码文本
如果 Azure 无法做到这一点,我可以使用的任何资源都会有很大帮助。
谢谢!
我目前正在创建一个 C# 函数,用于将 Azure 语音的 JSON 输出与文本文件和纯文本文件进行比较
您在这里寻找的功能称为“强制对齐”,其中书面记录与音频“对齐”。 请参阅这些:
https://montreal-forced-aligner.readthedocs.io/en/latest/