语音识别(SR)是计算语言学的跨学科子领域,它将语言学,计算机科学和电气工程领域的知识和研究结合起来,开发出能够通过计算机识别和翻译口语的方法和技术。和计算机化的设备,如分类为智能技术和机器人技术的设备
有没有办法使用某种(离线)语音识别来计算音频文件中的单词数?实施这样的事情的最佳方法是什么? 还有有什么办法可以让...
致力于 Flutter 语音到文本转换并使用语音到文本库,添加以下代码用于收听: 演讲.听( onResult: 结果监听器, 监听:持续时间(分钟...
iOS 17 的新语音识别 API 中的 URL:prepareCustomLanguageModel 与配置 URL
我正在使用 iOS 17 中的新语音识别 API,并且在 SFSpeechLanguageModel.prepareCustomLanguageModel 和 SFSpeechLanguage 中使用 URL 时遇到了一些困惑...
我正在尝试使用 Microsoft Azure 通信服务创建一个简单的 IVR。我创建了一个函数来接听来电,以及一个函数来处理通话期间的事件,例如 pla...
OpenAI Whisper API:如何缩短响应延迟?如何让 Whisper 响应更快?
我正在制作一个语音聊天机器人。问题是我需要缩短与机器人交谈时完成句子和机器人开始响应之间的延迟,目前大约需要 6
webkitSpeechRecognition api 很大程度上是单元测试的黑盒 看起来如果我想测试 api,我必须与浏览器对话。有谁知道测试工作的替代方法...
我正在努力在 Nuxt.js 2 项目中使用 SpeechRecognition API 在用户录音期间实现语音检测。该功能在桌面 Chrome 上完美运行,我已经确认...
如何使用 .NET 让 Azure Batch Transcription 在完成时调用 URL 或函数应用程序?
我正在开发一个项目,需要使用 Azure 认知服务对音频文件执行批量转录。我的目标是上传音频文件,触发批量转录,然后...
所以我在 Unity 中有一个使用 Microsoft Azure 的语音识别应用程序,可以在单击按钮时调用语音识别。据我所知,您需要一些东西来触发语音识别,要么是
Flutter:是否可以测量单词正确发音与玩家发音的相似度?
我正在创建一个使用语音识别的简单游戏应用程序。在游戏中,玩家要发音该单词,然后系统会评估或处理玩家的单词发音是否...
我正在用python制作一个语音识别程序,我希望当我说“上面”时,它将连续运行循环以按下向下键,直到我再次不说上面,但现在...
将音频转换为文本并将其插入到 tkinter 的窗口中会产生 AttributeError: 'dict' object has no attribute 'Text'
您好,我是越南人。我正在尝试使用下面的代码将音频转换为文本并插入到 tkinter 窗口中,但出现以下错误: 在此输入图像描述 可以请你...
speech_recognition 库无法在 MacOS 上的 Python 中运行
我正在我的 MacOS 设备上制作虚拟助手,并使用了语音识别。 该库需要pyaudio,所以我安装了pyaudio,但它仍然无法工作。 我看到这个问题,我尝试运行...
为什么 Mel-filterbank 能量在使用 CNN 进行语音命令识别方面优于 MFCC?
上个月,一位名叫@jojek的用户在评论中告诉我以下建议: 我敢打赌,如果有足够的数据,CNN 在梅尔能量上的表现将优于 MFCC。你应该试试。更有意义的是...
是否可以将 Google 的 Speech-To-Text API 集成到我的网站中
我正在尝试寻找将语音转文本 API 集成到我的网站中的文档。 通过确切的用例,通过语音输入填充文本区域 但它似乎不起作用 - 只是想方设法
我能够通过创建如下接口在 TypeScript 中运行 SpeechRecognition,并且工作正常: 命名空间核心{ 导出接口 IWindow 扩展 Window{ webkit语音识别...
我正在使用speech_to_text,它在网上非常好 ,但我希望它可以离线工作,如何在 Flutter 中实现这一点? 根据包的自述文件 在谷歌应用程序中 安装谷歌应用程序 设置 > 语音...
我很难理解与块生成器和转录过程相关的Python脚本摘录的动态。 这是完整的代码:https://cloud.google.com/speech-to-text/docs/
使用torch.nn.CTCloss时,为什么我的损失曲线收敛了,但模型似乎重复只输出几个标记? 例如: 我的标签是:[220, 1122, 172, 26, 460, 836, 171, 1813, 113, 39,...
如何使用 Python 实时动态处理 Twilio 上的调用?
我正在构建一个执行以下操作的应用程序: 拨打外线电话。 当被叫者接听时开始流式传输 使用 Vosk 实时转录流 检测关键字以区分两个差异...