使用机器学习创建语音识别系统

Question

作为机器学习的一个教育项目，我正在考虑从头开始创建一个语音识别系统。在之前对说话者的声音进行训练后，它应该能够从说话者的声音中识别出说话者。

我应该采取什么方法来应对这一挑战？具体来说，这样的系统在高层次上如何工作？

Answer 1

要使用机器学习算法，您必须首先定义要为其提供的功能。

最简单的方法是计算音频信号的傅里叶变换（使用任何您想要的 FFT 工具，这是相当标准的），并使用频率及其幅度信息构建特征向量。

如果还不够，您可以使用频谱图来添加时间信息。

一旦正确设置了特征，您就可以开始使用您最喜欢的分类器算法了！！！

如果你使用 python，我发现这个问题解释了如何进行 FFT 部分： Python 中频谱图的 FFT

Answer 2

我做了一次简单的说话人识别。

您可能需要使用诸如梅尔频率倒谱系数 (MFCC) 之类的功能，这些功能可以解释谐波引起的频谱周期性以及人耳感知的响度。

然后你可以在学习阶段对特征进行聚类，得到统计模型。我为此使用了 VQ，这对于这种特定用途来说非常糟糕，但仍然得到了可用的结果。在识别阶段，您尝试将输入数据拟合到代表不同说话者的不同模型上。拟合越好，误差越低。确保根据录音长度标准化分数。

此外，改善说话者识别的一个好方法是排除静音和非语音。