Google Speech API是否可以配置为仅返回数字和字母,而不是完整的字词?
该用例正在翻译加拿大邮政编码。防爆。 M 1 B 0 R 3.谷歌可能会返回“Em 1 Be 0 Are 3”
我们尝试过:
speechContexts
并输入字母A - Z作为单独的短语。这提高了我们的准确性。我们没有太多成功传递个人数字(例如,1,2,3)。encoding
和sampleRateHertz
配置选项指定WAV文件的编解码器和采样率。我们认为这样做没有任何改进,因为我们认为Google已经在自动识别采样率和编码方面做得很好。我们的音频文件是8000hz,编码为“M-ULAW”。我们无法灵活地更改采样率或编码。
有没有办法让Google针对此用例获得更准确的回复?甚至欢迎更好的speechContexts
短语的想法。
谢谢
我们遇到了相同的结果,我们希望有一个基于语法的“上下文”建议或一个只强制数字返回变量的参数。
api版本的更改不会修复数字的识别方式,甚至不使用model:phone_call。
识别某种数字实际上更好的是切换到en_US语言环境,这又强制识别引擎将数字列表识别为电话。因此它使用+ XXX-XXX-XXX-XXXX以类似手机的语法返回,这使得检测非常好。
所以我不明白为什么谷歌幕后的语法匹配并没有通过他们的api提供它。