将实时音频转换为音素

问题描述 投票:0回答:1

使用麦克风作为实时音频的输入。如何从音频中提取当前所说的音素? 我需要它来对付 2d 角色。

基本上,我的方法是:

  1. 使用麦克风获取实时音频
  2. 检测当前正在从音频中发音的音素。

我曾尝试到处寻找可以解决此类问题的示例或库。大多数图书馆似乎不会从音频中输出音素。

有一个网站解释了他们如何使用机器学习来解决这个问题,但是没有任何代码或教程来说明如何做到这一点。 https://www.arxiv-vanity.com/papers/1910.08685/

还有一个很酷的语音识别工具,叫做 Pocketsphinx,但我似乎还没有找到使用音素识别的例子。

javascript python speech-recognition phoneme
1个回答
0
投票

我的方法是使用 Whisper 或类似的 STT 服务从音频中获取 word(Python 语音识别库 是目前的首选),然后 我会使用 CMU Dict Library 为每个单词提供音素。

使用 CMU 词典给出音素 - 例如

DH
用于
θ
音素 -
th
this
中的
that
声音。也就是说,它们 not 以 IPA 发音给出 - 因此如果您需要 IPA 格式的音素,您可能需要另一层。如果您需要 IPA 格式的音素,请考虑 IPA2 库

© www.soinside.com 2019 - 2024. All rights reserved.