我有一个关于耳语神经网络的问题。 我有两个通道的电话录音。 如何将文件 .wav 解密为文本文件,并指定对话者在哪里说话?例如:
接线员:...
客户:...
我尝试分别与每个渠道合作。我把它们写成两个文件并合并起来。
有没有更简单的解决方案?
如果我理解正确的话,您还想添加有关哪个对话者说什么的信息,对吧?据我所知,您的处理方式似乎是最简单的(https://github.com/openai/whisper/discussions/1026)。
您也可以将两个通道合并为一个(使音频成为单声道),但有时可能会遇到扬声器彼此重叠的问题。如果您确实想这样做,那么除了文本之外,您还可以输出时间戳。然后,如果您知道每个对话者在录音中说话的时间,您可以将输出的时间戳与相应的发言者进行匹配。如果您想要字级时间戳,您可以使用此 Whisper 实现:https://github.com/linto-ai/whisper-timestamped。 Whisper 已经输出段级时间戳。
我还刚刚发现 Whisper 的本机实现支持字级时间戳(如果您在
word_timestamps=True
命令中添加 .transcribe()
,请参阅 https://github.com/openai/whisper/blob/main/耳语/转录.py)
希望这有帮助!