我正在使用流音频和 wav 文件测试 google Speech-to-Text API。 我正在使用电话音频:8000 采样率、8 位、mulaw 编码。 Google 配置已正确设置。
当我用正常序列测试它时,它返回正确的转录。 然而,当我说出一个单词(尤其是数字)时,我经常无法从 api 获得任何响应 -> 就好像没有输入一样。流式转录和批量转录都会发生这种情况。
有人知道为什么会这样吗?如何解决?
云语音转文本 API 最佳实践建议使用无损编解码器,例如 FLAC 或 LINEAR16。我用 LINEAR16 进行了验证,它适用于数字的单个单词。所以解决方案是对音频进行转码。
我在 2024 年 5 月 3 日观察到了同样的现象。 我在说出“正确”这个词时特别困难 通常不会调用 onresponse 方法。 如果我说“左转”或“右转”,它就可以正常工作。
几天前我向 Google 提交了一份错误报告。还没有回复。
解决方法是在话语之前或之后添加一个附加单词来延长单个单词的话语,然后将其从重新编码的文本中删除 在使用它之前。但这很棘手。 说“right google”会返回“alright google” “right chrome”返回“write Chrome”。 也许你应该期望将“write”与 无论如何“对”。尽管如此,这一个字的失败还是令人恼火。 我有兴趣听听其他人的经验。