我想用 python 编写自己的语音助手,然后在 rapsberry pi 上运行它。我要做的第一步是转录 microfon 流的语音。 因此,我希望麦克风收到的语音立即转换为文本,以便我可以检查该文本中是否有信号词,例如“嘿 Siri”。
我已经尝试过大部分 STT API,例如语音识别、耳语和 Google Cloud Speech_To_Text。我遇到的问题是他们在直播期间没有转录。例如,语音识别会等到我停止说话为止。然后将录制的音频文件发送到服务器并进行转录。这花了很长时间。
有什么想法吗?