获取单词的时间戳（语音到文本）

Question

我实际上使用Pocketsphinx语音到文本音频文件。我用这个命令：

pocketsphinx_continuous -logfn /dev/null -infile audio.wav > text.txt

我想知道是否有办法获取每个单词的时间戳。就像那样：

startTime: 0.000s, endTime: 0.200s, word: hello
startTime: 0.250s, endTime: 0.500s, word: world

我不需要使用Pocketsphinx，但我需要一种免费且不受限制的方式来在Linux上使用Speech-To-Text音频文件。

Answer 1

1
投票

感谢@NikolayShmyrev，答案只是将-time yes添加到命令中