您将首先将音频转换为频域,该音频域是使用
快速傅立叶变换完成的。对于您进行FFT的及时及时,这将为您提供频率及其振幅的列表。 您将以某种方式通过分析谐波来检测基本语气。 第二和第三谐波将是最清晰的。 很难弄清楚它们是哪些谐波,尤其是在背景噪音和人们声音之间的自然差异方面,谐波最大的声音。 然后,您可以尝试通过您猜到的基本语气来确定说话者是男性还是女性。 确保在许多部分的演讲中(例如sibilance('s','t'等))没有音调,只是噪音。 它需要非常聪明。 希望您朝着正确的一般方向。
注:如果两个声音同时是同时进行的,并且您想干净地将它们分开,那么这对您无济于事。 我不相信活着的人解决了这样的问题。
我认为这是可能的。我刚刚开始与安德鲁·恩格(Andrew Ng)教授一起在斯坦福大学(Stanford University)撰写有关机器学习的在线课程。背景和讲话的人)。显然,它使用了一种无监督的学习算法,使其可以提取两个基础模式。您可能需要研究该课程(这里有一个版本:
Http://www.academicearth.org/courses/machine-learning-)
)这样可能的工具是
。它用Java编写,并在GPL下可用,是一种语音识别工具,并为男性,女性和儿童使用统计模型。幸运的是,为您提供了模型,您可以使用它而无需标记录音并训练模型。 请参阅liumwiki的sripping页面以获取示例,在页面中搜索“性别”。
如果它们是独立的,那么您更有可能的赌注是拥有大量的男性和女性声音样本,并寻找共同的特征(以及一种以编程方式识别它们的方法)。如果样品未清晰记录(如果有背景噪音),情况就会变得更加复杂。 您可能会以平均语调逃脱 - 男性的声音比女性深度更深。 您问的是一项任务的地狱。 Thomasrutter写了一些“指针”如何做到这一点 - 但是,如果您想在各种音乐中使用(当然),我想算法必须真的很健壮。也许从与歌曲中的单个乐器样本分开(拼写)开始更容易/更容易。
我没有答案,但我也想答案。我是卡拉OK D.J.我正在努力建立一个虚拟乐队,所以看起来歌手正在与乐队一起唱歌。 我想找到一种方法,将伴奏音乐喂入机器人节目中,并在有男性背景的声音和女性假人的嘴巴时移动男性的嘴巴,当有女性背景时,并且两者都有两个时都有