Whisper神经网络如何设置双通道识别？

Question

我有一个关于耳语神经网络的问题。我有两个通道的电话录音。如何将文件 .wav 解密为文本文件，并指定对话者在哪里说话？例如：

接线员：...

客户：...

我尝试分别与每个渠道合作。我把它们写成两个文件并合并起来。

有没有更简单的解决方案？

Answer 1

如果我理解正确的话，您还想添加有关哪个对话者说什么的信息，对吧？据我所知，您的处理方式似乎是最简单的（https://github.com/openai/whisper/discussions/1026）。

您也可以将两个通道合并为一个（使音频成为单声道），但有时可能会遇到扬声器彼此重叠的问题。如果您确实想这样做，那么除了文本之外，您还可以输出时间戳。然后，如果您知道每个对话者在录音中说话的时间，您可以将输出的时间戳与相应的发言者进行匹配。如果您想要字级时间戳，您可以使用此 Whisper 实现：https://github.com/linto-ai/whisper-timestamped。 Whisper 已经输出段级时间戳。

我还刚刚发现 Whisper 的本机实现支持字级时间戳（如果您在

word_timestamps=True

命令中添加

.transcribe()

，请参阅 https://github.com/openai/whisper/blob/main/耳语/转录.py）

希望这有帮助！

Whisper神经网络如何设置双通道识别？

问题描述投票：0回答：1

1个回答

最新问题

Whisper神经网络如何设置双通道识别？

问题描述 投票：0回答：1

1个回答

最新问题

问题描述投票：0回答：1