调试自定义单词PocketSphinx.js的语音识别

问题描述 投票:1回答:1

问题:我正在寻找一种调试工具/方法,当PocketSphinx.js无法识别我定义的自定义单词时,我可以用它来发现问题所在。具体来说,我希望能够看到在无法识别单词时PocketSphinx.js实际听到的音素。

详细信息:我正在为网站开发语音界面。我需要使用自定义关键字,并且正在使用PocketSphinx.js。我选择的自定义关键字是“ Berk-o-bot”,CMU pronunciation为“ B ER OW B A A T”。我对这个词组认识得很少。 (仅能识别大约四分之一的时间,我会慢慢地故意说出这个词,如果我以正常的速度讲话则永远不会。)注意:如果我将单词分成较小的块(Berk [B ER K],Berk-O [B ER K OW],O-bot [OW B A T]或bot [B AA T]),则较小的块很容易识别。

失败尝试的想法:

  • 我怀疑,由于第一个和第三个音节都带有重音,但第二个音节没有重音,因此识别器会遇到困难。我曾尝试在发音[B ER1 K OW0 B AA2 T]中添加Arpabet Stress Symbols,但是当我尝试将单词添加到词典中时,pocketsphinx.js抛出了错误。
  • [我也尝试过将多种发音添加到字典中,例如BERK-O-BOT(2)[BER K AO B AA T],BERK-O-BOT(3)[B ER K AH B AA T], BERK-O-BOT(4)[Ber K EH B AA T],BERK-O-BOT(5)[Ber K UH B AA T],但识别率没有任何改善。
  • 我是Pocketsphinx.js的新手,因此以上两种方法可能有效,但是我可能没有正确实现它们。
speech-recognition cmusphinx pocketsphinx
1个回答
0
投票

您需要先在Pocketsphinx_continuous和预先录制的音频文件上使其在桌面上运行。一旦工作,您可以尝试使用具有相同配置和型号的网络浏览器。

如果仍然无法获得更多详细的帮助,您可以共享音频文件和配置/模型。

总体而言,pocketsphinx是一项非常古老的技术,很难使其准确无误。您最好尝试使用https://github.com/castorini/honkling或vosk-api

© www.soinside.com 2019 - 2024. All rights reserved.