我正在开发一个网络工具,使用 python 中的 open ai Whisper 库将音频/视频转录为文本或字幕。 它工作正常,但问题是由于等待时间增加而需要太多时间来转录较大的文件。
这是我在代码中使用的基本代码片段..
import whisper
model=whisper.load_model("base")
result=model.transcribe(filepath)
print(result['text']
完成此操作后,3 分钟长度的音频文件需要超过 4-5 分钟才能转录,那么我如何加快此过程?
我遇到了同样的挑战,我推荐三种选择:
使用 openai Whisper API。他们优化了速度,实现约 0.1 的实时系数(意味着 180 秒的音频将需要 18 秒来处理)
使用牛津大学 Visual Geometry Group 的 WhisperX,它使用 VAD 首先对音频进行分段,然后批量运行分段。
使用 fast-whisper,它利用 CTranslate2(Transformer 模型的快速推理引擎)进行量化。
我不记得选项 2 和 3 的实际 RTF 数字,但我想说大约是 0.15
“他们优化了速度,实现约 0.1 的实时系数”:您能为我提供此信息的来源吗?能给个链接吗?