我正在尝试使用 OpenAI Whisper 将少量音频数据转换为文本数据,尽管较大模型的精度非常好,但处理音频非常慢。但后来我发现更快的耳语模型可以解决这个问题,但是它在转换一些音频后杀死内核并不成熟地退出python程序。即使经过这么多的尝试和研究,也不知道为什么会发生这种情况。如果有人向我展示这一点,那就太好了。 我运行此程序的机器配置:intel i9 14 gen 处理器、RTX 4090 Grpahics 卡、64 GB RAM。
%%time
from faster_whisper import WhisperModel
audios = ["audio1.wav","audio2.wav","audio3.wav","audio4.wav","audio5.wav"]
for audio in audios:
model = WhisperModel("distil-large-v3")
segments, info = model.transcribe(audio, language="en", condition_on_previous_text=False)
for segment in segments:
print("[%.2fs -> %.2fs] %s" %(segment.start, segment.end, segment.text))
我尝试使用更快的耳语模型在具有 Cuda 11.8 的 GPU 上运行音频转换过程。我期待更快的耳语模型能够持续运行,但它没有发生。
你找到解决办法了吗?因为这个问题至今仍然存在......