语音识别(SR)是计算语言学的跨学科子领域,它将语言学,计算机科学和电气工程领域的知识和研究结合起来,开发出能够通过计算机识别和翻译口语的方法和技术。和计算机化的设备,如分类为智能技术和机器人技术的设备
我构建了一个简单的应用程序来识别语音并说出结果。但是当我通过 Buildozer 从 python 文件制作 APK 时,tts 成功了,但 stt 即语音识别成功了......
我想实现一个可以在人后重复某个单词的功能。例如:“说娃娃。”可以使用任何其他词来代替娃娃。重点是让助理重复一遍
使用 pyttsx3 和语音识别运行 Python 脚本时遇到分段错误错误。这是我的代码的简化版本: 导入时间 导入 pyttsx3 导入语音识别...
如何从 Inference API 语音识别模型获取 logits?
我正在尝试使用我通过 Inference API / Inference Endpoints 上传到拥抱面部的微调 Wav2Vec2 模型,但它似乎使用 Pipeline 来调用模型,这意味着它只会...
Android 穿戴:LANGUAGE_MODEL_WEB_SEARCH 和 LANGUAGE_MODEL_FREE_FORM
LANGUAGE_MODEL_WEB_SEARCH 和 LANGUAGE_MODEL_FREE_FORM 有什么区别?为什么需要用于输入语音的Intent?
我目前正在尝试编写一个Python脚本,使用连续识别来识别来自麦克风的语音。我使用了 Azure 语音服务中的示例代码 (https://learn.microsoft.c...
我正在开始一项需要将音频转换为文本的工作。我正在使用 python 的语音识别库。我在github上看到了一个关于如何使用它的教程。该程序无法识别我的...
我正在尝试使用拥抱脸部模型和本地麦克风来实现实时语音转文本服务。我可以看到来自麦克风的数据(我打印了字节数据)。但我越来越...
当我使用 recognize_once() 在 azure 中提供超过 4 种语言的列表时如何识别音频?
Azure Speech SDK 有一个限制,它仅支持在“DetectAudioAtStart”模式下同时检测最多 4 种语言。为了解决这个限制,我创建了 4 个批次
PorcupineInvalidArgumentError:初始化失败:[0] 关键字文件(.ppn)文件格式不正确或属于不同平台
这是我的代码 从“./lib/model_file.js”导入模型 从 './lib/hello-ravi_en_wasm_v3_0_0/keyword_file.js' 导入关键字 控制台.log(模型); 控制台.log(关键字); const porcupineKeyword = { ...
我正在使用 .NET 在 Azure 上构建实时麦克风语音到文本转录。然而,单个句子会导致多个重复的句子。我需要帮助确定导致重复的问题
我正在尝试测试firefox的webspeech-api,但在控制台中遇到错误,提示ReferenceError:SpeechRecognition未定义。 我什至启用了 media.webspeech.recognition.enabl...
嘿 我正在寻找用 python 构建一个代码,它将识别我通过麦克风所说的话并转换为语音, 你能给我一些有效的语音处理库来实现......
我无法在Python中使用speech_recognition看到我的文本输出
我正在使用 Python 开发 VA 项目。当我在终端中查看文本输出时,我需要一些帮助。我的代码都是正确的。我的麦克风是全新的并且已安装好。我不知道为什么我看不到...
我想在我的 Electron.js 应用程序中使用语音识别,但似乎不支持 Electron 语音识别。
如何以编程方式提示 Google 语音输入设置屏幕的语言列表
我使用 Google SpeechRecognizer 编写了一个应用程序,并且我知道如何设置 SpeechRecognizer 的语言。 现在我想使用 Google 语音输入的默认语言设置/选择。如何
我一直在寻找Expo-audio的解决方案,但找不到我想要的解决方案,所以我制作了这个帖子。 我想要的是 我有一个带有 Expo-av 的录音机功能,它可以录制和播放音频...
据我所知,大多数语音识别实现都依赖于二进制文件,其中包含它们试图“识别”的语言的声学模型。 那么人们如何编译这些模型...
React-speech-recognition 在 React(Next.js) 中与 React-media-recorder 一起使用不适用于 Android 手机
我想在我的 React/Next.js 应用程序实现中使用“react-speech-recognition”和“react-media-recorder”来同时执行语音识别和录音...
我有一个研究项目,我需要利用两个用户之间的实时语音分类并跟踪哪个用户说了些什么。我只是想知道最好的方法是什么以及是否有免费的