Python 的实时语音分类选项?

问题描述 投票:0回答:2

我有一个研究项目,我需要利用两个用户之间的实时语音分类并跟踪哪个用户说了些什么。我只是想知道最好的方法是什么,是否有任何免费的库可以在 python 中执行此操作?音频将使用 Websocket 从用户设备输入到后端环境。

我尝试使用“Diart”库,可以在这里找到它,但是当我尝试在我的 Mac M1 上安装所需的软件包时,出现此错误:

Building wheels for collected packages: hmmlearn
  Building wheel for hmmlearn (setup.py) ... error
  error: subprocess-exited-with-error
  
  × python setup.py bdist_wheel did not run successfully.
  │ exit code: 1
  ╰─> [121 lines of output]

随后

  note: This error originates from a subprocess, and is likely not a problem with pip.
  ERROR: Failed building wheel for hmmlearn
  Running setup.py clean for hmmlearn
Failed to build hmmlearn
ERROR: Could not build wheels for hmmlearn, which is required to install pyproject.toml-based projects

我尝试降级到不需要“hmmlearn”库的旧版本,但由于类似的原因,这些版本也一直失败。我只是想知道是否有任何其他库或其他任何东西我可以用来让它工作?

我知道 Google 的语音分类 API,但是在免费试用后,您必须付费才能使用它。我想知道是否有任何“免费”选项可用。

python-3.x speech-recognition speech-to-text
2个回答
0
投票

您可能希望考虑

pyannote
- 用于说话人分类的工具包。它有几个基于 Google Colab 的笔记本和示例。需要接受使用条件并通过 Hugging Face 获取代币。


0
投票

我知道我迟到了,但是你和我最喜欢的解决方案(diart)尚未完成。我相信一旦以下 PR 合并到主干中,您将能够使用 diart 来实现此目的,希望不会有太多摩擦:

https://github.com/juanmc2005/diart/pull/147

如果您在 M1 上运行时遇到问题,请检查该存储库上的问题日志。自从您发布此问题以来,其他人已经成功解决了一些不同的 MBP 硅拱问题。

© www.soinside.com 2019 - 2024. All rights reserved.