将转录文本与音频中的特定时间戳对齐

问题描述 投票:0回答:1

在 Azure 中是否有可能,或者 Azure 中是否有服务可以用来根据源视频的口语获取每个纯文本的位置?

基本上,我有一个纯文本,其中包含手动转录的单词。现在,这些文本将用于创建字幕,并且每个文本的每个时间都应取自音频源。

示例:

srt 格式 00:00:01,002 -> 00:00:05,010 --> 这是取自视频源 敏捷的棕色狐狸跳过了懒狗。 --> 在文本文件中手动编码文本

如果 Azure 无法做到这一点,我可以使用的任何资源都会有很大帮助。

谢谢!

我目前正在创建一个 C# 函数,用于将 Azure 语音的 JSON 输出与文本文件和纯文本文件进行比较

text c#-4.0 speech-recognition speech-to-text speech
1个回答
0
投票

您在这里寻找的功能称为“强制对齐”,其中书面记录与音频“对齐”。 请参阅这些:

https://montreal-forced-aligner.readthedocs.io/en/latest/

© www.soinside.com 2019 - 2024. All rights reserved.