语音识别(SR)是计算语言学的跨学科子领域,它将语言学,计算机科学和电气工程领域的知识和研究结合起来,开发出能够通过计算机识别和翻译口语的方法和技术。和计算机化的设备,如分类为智能技术和机器人技术的设备
我正在尝试使用适用于 iOS 的 Microsoft 认知服务语音转文本 SDK。到目前为止,我已经设法让 recognizeOnce 函数运行没有任何问题,但 Swift 的示例是...
如何使用 Vosk 获取已知转录文本的音频文件中单词的开始和结束时间?
我在Python中使用Vosk(https://alphacephei.com/vosk/),我想获取音频文件中每个单词的开始和结束时间,并且我有音频文件的转录。 我正在使用一些代码我...
使用React中的Web Media Recorder API作为前端,使用Python作为后端来实现实时语音识别
我们要实现什么? 我们部署了一个人工智能模型来传输麦克风中的音频并向用户显示语音文本。像这样的东西。 使用什么技术? 蟒蛇...
如何使用faster_whisper从转录中获取置信度分数?
我正在使用faster_whisper Python 库来转录音频文件。目前,我能够获取音频数据的转录,但无法检索这些转录的置信度分数...
我开始使用谷歌语音API来转录音频。 正在转录的音频包含许多依次说出的数字。 例如。 273298 但转录结果是 270-3298 我的咕...
是否可以使用“speech_to_text”库在用户句子结束后设置结束音频输入的时间?
我正在编写一段代码来识别用户的语音,并据此在应用程序中做出决策,但我们知道,当我们说话时,我们可以短暂中断,以便更好地思考问题...
我正在寻找一个准确率 > 95% 且平均响应时间的语音识别库 < 400ms. This is needed for one of my native ANDROID app which has been running on propriety
SpeechSynthesizer 无法获取所有已安装的语音
我在我的 Windows 7 64 位操作系统中安装了新的 32 位 Scansoft 语音 (Jennifer),以便能够在我正在开发的一个 .NET 应用程序中使用。 问题是当我打电话给我时...
我使用 Dragon NaturallySpeaking 来听写电子邮件和文档,以最大程度地减少键盘和鼠标的使用,但除了为
我在android上使用SpeechRecognizer来识别用户的声音。 在卸载 Google App 之前它运行良好。 (https://play.google.com/store/apps/details?id=com.google.android.googlequicksearch...
我正在使用流音频和 wav 文件测试 google Speech-to-Text API。 我正在使用电话音频:8000 采样率、8 位、mulaw 编码。 Google 配置已设置
Python 语音识别:仅在程序第一次运行时检测到麦克风一次
我正在使用语音识别库来检测语音。我正在使用streamlit作为界面。按钮触发语音识别过程。第一次工作正常。音频被识别...
当我开始我的活动或片段时,我想开始语音识别,当用户说话时,如果它与某个字符串匹配,则会显示结果。结果出来后,它应该再次开始识别...
我正在开发一个使用 gTTS 的语音识别项目。问题是,当我运行代码时,系统没有响应。 (它不会回答我的查询)我根据我的知识尝试但不能
是否可以以某种方式使用 python 3.5 的文本到语音 重要讲话 导入时间 response = voice.input("请说点什么。") Speech.say(“你说”+回复) def 回调(短语,
有没有可以与 PHP 一起使用的(免费)语音转文本 API? (我只懂 PHP 和 html/css。) 我想向它发送一个音频文件,然后让它返回转录。
如何在 JS SpeechRecognition API 中识别用户何时停止说话?
我使用 JS SpeechRecognition API 制作了一个 SpeechToText 应用程序。在我的应用程序中有一个按钮和一个输入,当用户单击按钮时,我开始听用户的语音,然后
我们的应用程序“ConverStory”的语音识别器部分最近突然停止在某些设备上工作。 https://play.google.com/store/apps/details?id=com.converstory。我们使用...
我正在构建一个 Android 应用程序,并且正在使用语音识别,但虽然该应用程序在 Android 11 及以下任何版本上运行良好,但我遇到了 Android 12 以外的任何版本的障碍。
在后端使用 Azure Speechsdk.transcription.ConversationTranscriber 处理来自 Web 应用程序的数据时出现问题
我正在尝试实现如下流程: JS Web 应用程序使用 WebAudio API 持续捕获音频(getUserMedia,然后处理 MediaRecorder) 单通道音频正在继续发送...