我实际上使用Pocketsphinx语音到文本音频文件。 我用这个命令:
pocketsphinx_continuous -logfn /dev/null -infile audio.wav > text.txt
我想知道是否有办法获取每个单词的时间戳。就像那样:
startTime: 0.000s, endTime: 0.200s, word: hello
startTime: 0.250s, endTime: 0.500s, word: world
我不需要使用Pocketsphinx,但我需要一种免费且不受限制的方式来在Linux上使用Speech-To-Text音频文件。
感谢@NikolayShmyrev,答案只是将-time yes
添加到命令中