Whisper神经网络如何设置双通道识别?

问题描述 投票:0回答:1

我有一个关于耳语神经网络的问题。 我有两个通道的电话录音。 如何将文件 .wav 解密为文本文件,并指定对话者在哪里说话?例如:

接线员:...

客户:...

我尝试分别与每个渠道合作。我把它们写成两个文件并合并起来。

有没有更简单的解决方案?

python-3.x openai-whisper
1个回答
0
投票

如果我理解正确的话,您还想添加有关哪个对话者说什么的信息,对吧?据我所知,您的处理方式似乎是最简单的(https://github.com/openai/whisper/discussions/1026)。

您也可以将两个通道合并为一个(使音频成为单声道),但有时可能会遇到扬声器彼此重叠的问题。如果您确实想这样做,那么除了文本之外,您还可以输出时间戳。然后,如果您知道每个对话者在录音中说话的时间,您可以将输出的时间戳与相应的发言者进行匹配。如果您想要字级时间戳,您可以使用此 Whisper 实现:https://github.com/linto-ai/whisper-timestamped。 Whisper 已经输出段级时间戳。

我还刚刚发现 Whisper 的本机实现支持字级时间戳(如果您在

word_timestamps=True
命令中添加
.transcribe()
,请参阅 https://github.com/openai/whisper/blob/main/耳语/转录.py

希望这有帮助!

© www.soinside.com 2019 - 2024. All rights reserved.