语音识别(SR)是计算语言学的跨学科子领域,它将语言学,计算机科学和电气工程领域的知识和研究结合起来,开发出能够通过计算机识别和翻译口语的方法和技术。和计算机化的设备,如分类为智能技术和机器人技术的设备
我正在尝试将语音隔离与 Swift 中的语音识别集成在一起。我的目标是让 IOS 内置的语音识别有更好的质量,因为我们都知道它有多不准确,
如何在 android/flutter 中构建具有连续语音到文本应用程序的应用程序?
我试过 speech_to_text 包,但它在 10 秒后停止。 如何实现整个app持续listing直到运行?
我最近发现了一种叫做 Rpoku 的东西,它是一种口语计算机语言。我还发现了一些名为 Voice Code 的研究,它采用了不同的方法。这里有一个演示视频.. 你...
使用 python、django、openai、语音识别的聊天机器人 [关闭]
我已经使用语音识别、openai、pyttsx3 实现了虚拟协助。它在控制台上工作,我想使用 django 创建一个网络应用程序。 控制台结果
whisper AI 错误:CPU 不支持 FP16;使用 FP32 代替
我正在尝试在我的计算机上使用 whisper AI。我有一个 NVIDIA GPU RTX 2060,安装了 CUDA 和 FFMPEG。 我正在运行这段代码: 进口耳语 模型 = whisper.load_model("medium") 结果 =...
ValueError:无法创建张量,您可能应该使用“padding=True”激活填充到具有相同长度的批处理张量
我正在使用我自己的数据集对 kannada 语言的 wav2vec2 XLSR 进行微调,我一直遇到这个错误,即使我已经设置了 padding = True,它仍然会抛出错误。 在...
(Mis)-使用 open.ai whisper 进行文本到文本的翻译
我注意到使用 openai whisper 语音转文本库以多种语言转录语音有时可以准确识别另一种语言的插入内容并提供预期的输出...
实际上,我在我的代码中使用语音识别来根据识别的语音找出联系方式。但是,它不断地向缓冲区添加单词,我想要的是删除以前的记录...
我有一个 python kivymd 代码,中间有一个按钮。当按下按钮时,会打开一个对话框并要求用户说话(并且有一种方法可以保存输入)。因为有点...
我最近在做这个基本的 AI 项目,我正在使用语音识别来处理听力部分。目前,我在运行代码时遇到此错误消息。 导入语音识别...
我正在根据 Apple 在 Scrumdinger 应用程序中提供的示例代码测试 Apple 本身的语音识别 API。 Scrumdinger 应用程序的链接在这里: https://github.com/ahmaddorra/
我在控制带有语音模块的 tkinter、pyqt5 等 gui 库时遇到问题
我正在尝试控制带有语音模块的 GUI 库,例如 tkinter、pyqt5。控制的内容是接收用户的语音,改变屏幕上显示的gif图片。 只要...
#从声音文件中提取特征(mfcc、chroma、mel) def extract_feature(文件名,**kwargs): mfcc = kwargs.get("mfcc") 色度 = kwargs.get("色度") 梅尔=克瓦格...
Recognizer.listen() 得到了一个意外的关键字参数 'phrase_time_limit'
Recognizer.listen() 得到了一个意外的关键字参数 'phrase_time_limit' 希望我的问题能得到解决
我正在尝试制作一个聊天机器人,它可以听到您的声音,然后使用文本转语音使用 ChatGPT 进行回答 它在短时间内工作得相对较好,然后开始变慢然后最终崩溃......
需要帮助解决使用 Python 的语音助手项目中的语言选择和内核关闭问题
我正在做一个基于 Python 的语音助手项目来指导大学访客。助手使用 JSON 文件存储意图和响应,如果输入不匹配则切换到 ChatGPT...
如何通过 fetch 或 axios 获取音频文件缓冲区并在 google speech to text 中使用它?
我有以下代码: 异步函数 transcribeAudio(audioLink) { const audioFile = await fetch(audioLink); const audioBuffer = await audioFile.buffer(); const client = 新演讲。
我可以控制 pyttxs3 和 speech_recognition 将什么作为输入吗?
好吧,所以我尝试在嘈杂的区域使用 pyttxs3 和 speech_recognition,我的代码运行起来花费了很多时间,我假设它一直将噪音作为输入。所以我想知道它是不是...
使用 RecognitionAudio.FromStream() 时出现错误消息“调用者没有权限”
当我像下面这样使用 fetchFromUri 时,我已经成功地从我的代码中使用 google Speech-to-Text API 转录了一个音频文件: var file = RecognitionAudio.fetchFromUri(fileUri); 变量
我们正在flutter中开发一个跨平台应用程序,找不到任何转换源 有什么可能的解决方案吗? 我们期待为我们的定制模型提供解决方案。是否...