语音识别(SR)是计算语言学的跨学科子领域,它将语言学,计算机科学和电气工程领域的知识和研究结合起来,开发出能够通过计算机识别和翻译口语的方法和技术。和计算机化的设备,如分类为智能技术和机器人技术的设备
Open AI Whisper 正在返回英语而不是母语的转录
当我在印地语音频上使用开放式 AI 耳语模型时,它返回英文而不是印地语的转录。 我如何获得印地语本身的输出?有可以更改的设置吗? 梅尔=
无法使用语音识别解决缺少的 google-api-python-client 模块
我正在尝试在安装了 Armbian 的 tinkerboard 上运行语音识别。我总是收到这个错误 错误 - 从缺少 google-api-python-
我使用语音识别包在 python 中创建了一个用于语音识别的脚本。现在的项目要大得多,他们要我每月 23,000 小时将语音转换为文本。 蔚蓝和
show_all = False 在 speech_recognition 中不起作用
我正在使用以下代码使用这个包转录音频文件,一年前没有问题。当它产生所需的输出时,它会不断打印整个过程(所有
CTC 损失 预期的 input_lengths 的值最多为 144,但得到的值为 174
有人可以帮助我解决 CTC 损失问题吗?我为 ASR 编写了一个构形模型,为了训练编码器,我需要 CTC 损失。但是当我训练模型时出现错误“预期的 input_lengths 的值最多为 144,...
如何在 OpenAI 的 Whisper ASR 中获取词级时间戳?
我使用 OpenAI 的 Whisper python 库进行语音识别。如何获得单词级时间戳? 使用 OpenAI 的 Whisper 转录(在带有 Nvidia GeForce RTX 3090 的 Ubuntu 20.04 x64 LTS 上测试):...
是否可以在 python 中流式传输系统声音(扬声器输出)并识别其中的文本?
我浏览了很多用于处理声音的库,但在任何地方都找不到有关如何处理系统声音(扬声器输出)的信息我只找到了如何记录这个系统源...
将 mp3 转录为文本(python)-->“RIFF id”错误
我正在尝试将 mp3 文件转换为文本,但我的代码返回了下面概述的错误。任何帮助表示赞赏! 这是一个示例 mp3 文件。以下是我尝试过的: 将 speech_recognition 导入为 sr
我的树莓派 pi4(Linux 机器)上的 Speech_recognition 错误
我正在我的树莓派 4 上开发语音识别程序。我做了很多研究,并且成功地将行错误减少到两行。 我的代码: 将 speech_recognition 导入为 sr...
错误:[WinError 10054] 现有连接被远程主机强行关闭
我正在使用 Python 的语音识别库和谷歌识别器导出音频文件的转录本。音频文件是一个 URL,转录过程是在没有
ValueError:形状 (None, 10, 10) 和 (None, 10) 不兼容
我在网上找到了一个语音识别模型,我正试图让它在我自己的电脑上运行。 原始代码可以在这里找到:https://github.com/sanjeevpalla/Speech-To-Text/blob/master/Speech-To...
python 语音识别显示错误“模块识别请求失败:内部服务器错误”
我试图将语音转换为文本,但语音识别模块抛出内部服务器错误。 这是我的代码:- 将 speech_recognition 导入为 s sr=s.识别器() 打印(“我是你的抄写员......
python 语音识别显示错误“模块识别请求失败:内部服务器错误”
我试图将语音转换为文本,但语音识别模块抛出内部服务器错误。 这是我的代码:- 将 speech_recognition 导入为 s sr=s.识别器() 打印(“我是你的抄写员......
我正在尝试创建一个应用程序,当用户不知道时,它会说一个改变每个级别的文本。目标是说出显示的句子(是的,它是为孩子们制作的): @IBAction func dontknow(_ s...
我有以下语音识别代码: 将 speech_recognition 导入为 sr r = sr.Recognizer() mic = sr.Microphone() print("开始说话!") 而真实的: 以麦克风为来源: ...
我有一个在电子中运行的聊天机器人,我需要在那里向文本添加语音。我使用了 window.SpeechRecognition 和 window.webkitSpeechRecognition 但现在 chrome 似乎不支持语音
请查看下面给出的代码.... 在此处输入图像描述 将 speech_recognition 导入为 sr 导入pyttsx3 监听器 = sr.Recognizer() 引擎 = pyttsx3.init() 声音= engine.getProper ...
我正在开发一个将音频转换为文本的应用程序。我正在使用限制为 5 分钟的 SpeechRecognition 库,但我正在研究将视频分成 5 分钟的块的修复程序。我...
我想尝试将 mp3 文件转换为 .srt 文件以便自动为视频添加字幕。我不确定这是一个多大的挑战,因此我在这里问的原因。
我正在尝试将语音隔离与 Swift 中的语音识别集成在一起。我的目标是让 IOS 内置的语音识别有更好的质量,因为我们都知道它有多不准确,