我有一个项目,我正在使用语音识别模块。我注意到识别器在处理短发音单词(例如“next”、“search”、“write”等)的输入时遇到困难。当我在“写一些东西......”之类的句子中使用此类单词时,处理麦克风输入没有“麻烦”,我认为这是因为它将输入/音频持续时间延长到某个点。我所说的“麻烦”的意思是,当我说“下一个”时,因为它的发音很短,麦克风在关闭和处理输入之前仍然会等待一段时间。这样做的问题是,在我的项目中,大多数时候,我只需要单独说出这些词,而不是在句子中。
为了解决这个问题,我所做的就是延长这些单词的发音以满足特定的“音频持续时间”。例如,我将单词“next”发音为“neeeeeeeext”,或者将单词“search”发音为“seeeeeaaarch”。我不想那样,因为这样说命令听起来很愚蠢。关于如何解决这个问题有什么建议吗?或者我只是错过了什么?提前谢谢您!
P/S。我使用单独的识别器/语音识别器工具,而不是 SpeechRecognizer 模块中的识别器。我主要使用 SpeechRecognizer 模块来了解其麦克风及其功能。由于延迟问题,我也不使用 PyAudio。
我无法提供这个问题的确切答案,但我建议您使用 HuggingFace 模型。例如,您可以尝试小声说话。理论上,该模型相当小,应该在您的 CPU 中运行而没有太多延迟。
以下是您需要如何调用它的示例:
# Use a pipeline as a high-level helper
from transformers import pipeline
pipe = pipeline("automatic-speech-recognition", model="openai/whisper-small")