据我所知,大多数语音识别实现都依赖于二进制文件,其中包含他们试图“识别”的语言的声学模型。
那么人们如何编译这些模型呢?
人们可以手动转录大量演讲,但这需要大量时间。 即便如此,当给定一个包含一些语音的音频文件及其在文本文件中的完整转录时,单个单词的发音仍然需要以某种方式分开。要匹配音频的哪些部分与文本相对应,仍然需要语音识别。
这是如何收集的?如果一个人收到了价值数千小时的音频文件及其完整转录(不考虑必须手动转录的问题),那么如何才能以正确的间隔(一个单词结束另一个单词开始)分割音频?难道生成这些声学模型的软件已经必须能够进行语音识别吗?
那么人们如何编译这些模型呢?
您可以通过CMUSphinx声学模型训练教程来了解流程
人们可以手动转录大量演讲,但这需要花费大量时间。
这是正确的,模型准备需要很多时间。语音是手动转录的。您还可以使用已经转录的语音(例如带字幕的电影或转录的讲座或有声读物)并将其用于培训。
即便如此,当给定一个包含一些语音的音频文件及其在文本文件中的完整转录时,单个单词的发音仍然需要以某种方式分开。要匹配音频的哪些部分与文本相对应,仍然需要语音识别。
您需要将语音分开为 5-20 秒长的句子,而不是单词。语音识别训练可以从称为话语的句子中学习模型,它可以自动切词。这种分割是以无监督的方式完成的,本质上它是一种聚类,所以它不需要系统识别语音,它只是检测句子中相似结构的块并将它们分配给音素。这使得语音训练比训练单独的单词更容易。
这是如何收集的?如果一个人收到了价值数千小时的音频文件及其完整转录(不考虑必须手动转录的问题),那么如何才能以正确的间隔(一个单词结束另一个单词开始)分割音频?生成这些声学模型的软件不是必须能够进行语音识别吗?
您需要从一些大小为 50-100 小时的手动转录录音数据库来初始化系统。您可以在here阅读示例。对于英语、法语、德语、俄语等许多流行语言来说,这样的数据库已经存在。对于某些人来说,他们正在专用资源中进行。
一旦拥有初始数据库,您就可以拍摄大量视频并使用现有模型对它们进行分段。这有助于创建数千小时的数据库。例如,这样的数据库是从 Ted 演讲中训练的,您可以在here阅读。
收集和准备语音识别数据涉及几个关键步骤,以确保高质量和可靠的数据集。在 GTS,我们专注于提供全面的人工智能数据集和语音数据收集服务。我们是这样做的:
数据收集:
来源多样:我们从各种来源收集语音数据,包括脚本语音和自发语音,以捕获各种语音模式。 多个演讲者:我们的数据集包括不同年龄、性别和口音的不同演讲者的录音,以确保广泛的代表性。 不同的环境:我们收集各种声学环境中的数据以增强模型的鲁棒性。
注释
转录:语音录音经过精心转录,以提供准确的文本表示。 元数据标记:我们包括详细的元数据,例如说话者信息、背景噪音水平和声学条件。
质量保证:
验证:我们的数据集经过严格的验证,以确保准确性和一致性。 清理:我们消除任何无关的噪音或错误以保持数据质量。
预处理:
归一化:对语音数据进行归一化,以确保音量均匀、音质清晰。 分段:长录音被分段为可管理的块,以便于处理和分析。
通过遵循这些步骤,我们确保我们的语音数据集是高质量、多样化的,并准备好训练强大的语音识别模型。