我正在做一个语言识别器,我原本计划用神经网络对我的i-vector进行分类,但是我已经阅读了很多论文,并且他们总是使用其他方法,如SVM或PLDA,有人可以向我解释原因吗?或者用神经网络做到这一点很好?
神经网络适用于复杂的非线性多特征输入。 I-vectors通过设计将扬声器空间映射到非常简单的空间,其中扬声器可以通过逻辑回归或SVM轻松分离。
如果你想尝试使用神经网络,可以试试像https://github.com/FlashTek/vggvox-pytorch这样的端到端的东西