Python 语音识别在处理短发音单词时遇到问题

Question

我有一个项目，我正在使用语音识别模块。我注意到识别器在处理短发音单词（例如“next”、“search”、“write”等）的输入时遇到困难。当我在“写一些东西......”之类的句子中使用此类单词时，处理麦克风输入没有“麻烦”，我认为这是因为它将输入/音频持续时间延长到某个点。我所说的“麻烦”的意思是，当我说“下一个”时，因为它的发音很短，麦克风在关闭和处理输入之前仍然会等待一段时间。这样做的问题是，在我的项目中，大多数时候，我只需要单独说出这些词，而不是在句子中。

为了解决这个问题，我所做的就是延长这些单词的发音以满足特定的“音频持续时间”。例如，我将单词“next”发音为“neeeeeeeext”，或者将单词“search”发音为“seeeeeaaarch”。我不想那样，因为这样说命令听起来很愚蠢。关于如何解决这个问题有什么建议吗？或者我只是错过了什么？提前谢谢您！

P/S。我使用单独的识别器/语音识别器工具，而不是 SpeechRecognizer 模块中的识别器。我主要使用 SpeechRecognizer 模块来了解其麦克风及其功能。由于延迟问题，我也不使用 PyAudio。

Answer 1

我无法提供这个问题的确切答案，但我建议您使用 HuggingFace 模型。例如，您可以尝试小声说话。理论上，该模型相当小，应该在您的 CPU 中运行而没有太多延迟。

以下是您需要如何调用它的示例：

# Use a pipeline as a high-level helper
from transformers import pipeline

pipe = pipeline("automatic-speech-recognition", model="openai/whisper-small")

Python 语音识别在处理短发音单词时遇到问题

问题描述投票：0回答：1

1个回答

最新问题

Python 语音识别在处理短发音单词时遇到问题

问题描述 投票：0回答：1

1个回答

最新问题

问题描述投票：0回答：1