Microsoft语音平台 - 采样率和位深度

问题描述 投票:0回答:2

如果音频的采样率和比特深度与系统的训练数据匹配,则识别结果最佳。

那么,有没有人知道微软语音平台中使用的确切采样率和/或比特深度(和/或立体声/单声道)(最新的,如果这很重要)?如果是这样,你还记得你从哪里获得这些信息吗?

请注意,我使用的是MS语音平台,而不是SAPI。除非两者都使用相同的训练数据,否则这不是相同的AFAIK。确切地说 - 我用这个:http://msdn.microsoft.com/en-us/library/microsoft.speech.recognition.speechrecognitionengine.setinputtowavefile%28v=office.14%29.aspx

我的第一次尝试是基于页面上给出的C ++代码示例。

speech-recognition sampling wave microsoft-speech-platform
2个回答
0
投票

Microsoft.Speech SR引擎不需要培训(unlike the System.Speech SR engine),并且对采样率相对不敏感(可以使用任何> 8 KHz的采样率)。 16位音频是首选,但我相信它可以用于8位音频。


0
投票

我找不到有关采样率的任何信息,但似乎位深度实际上是8位(自Eric Brown's answer以来可能已经改变)。

来自qazxsw poi的行情列出支持的音频格式:

语音平台下采样大于8位分辨率的音频。

你应该没有任何比特深度,这是8位的倍数(无论如何总是如此),因为由于舍入不会导致精度损失(并且不像采样率那样没有分辨率混叠)。

© www.soinside.com 2019 - 2024. All rights reserved.