使用机器学习创建语音识别系统

问题描述 投票:0回答:2

作为机器学习的一个教育项目,我正在考虑从头开始创建一个语音识别系统。在之前对说话者的声音进行训练后,它应该能够从说话者的声音中识别出说话者。

我应该采取什么方法来应对这一挑战?具体来说,这样的系统在高层次上如何工作?

machine-learning artificial-intelligence
2个回答
2
投票

要使用机器学习算法,您必须首先定义要为其提供的功能。

最简单的方法是计算音频信号的傅里叶变换(使用任何您想要的 FFT 工具,这是相当标准的),并使用频率及其幅度信息构建特征向量。

如果还不够,您可以使用频谱图来添加时间信息。

一旦正确设置了特征,您就可以开始使用您最喜欢的分类器算法了!!!

如果你使用 python,我发现这个问题解释了如何进行 FFT 部分: Python 中频谱图的 FFT


1
投票

我做了一次简单的说话人识别。

您可能需要使用诸如梅尔频率倒谱系数 (MFCC) 之类的功能,这些功能可以解释谐波引起的频谱周期性以及人耳感知的响度。

然后你可以在学习阶段对特征进行聚类,得到统计模型。我为此使用了 VQ,这对于这种特定用途来说非常糟糕,但仍然得到了可用的结果。在识别阶段,您尝试将输入数据拟合到代表不同说话者的不同模型上。拟合越好,误差越低。确保根据录音长度标准化分数。

此外,改善说话者识别的一个好方法是排除静音和非语音。

© www.soinside.com 2019 - 2024. All rights reserved.