在10月1日举行的DevDay活动上,OpenAI宣布推出了一款名为Whisper large-v3-turbo的新版本语音转录模型。这款模型在几乎不牺牲质量的前提下,相较于之前的large-v3版本,处理速度提升了8倍。
- GitHub:https://github.com/openai/whisper/discussions/2363
- 模型下载:https://huggingface.co/openai/whisper-large-v3-turbo
- 在线体验:https://huggingface.co/spaces/hf-audio/whisper-large-v3-turbo
技术改进
Whisper large-v3-turbo是large-v3的一个优化版本,它的特点是只包含4层解码器层(Decoder Layers),而large-v3则拥有32层。这种简化的设计让模型在处理速度方面有了显著提升。
参数规模
新模型包含8.09亿参数,介于medium模型(7.69亿参数)和large模型(15.5亿参数)之间。较小的参数规模意味着Whisper large-v3-turbo在计算资源上的需求更低。
性能表现
OpenAI声称,Whisper large-v3-turbo的运算速度比large模型快8倍,并且只需要6GB的VRAM,相比之下,large模型则需要10GB的VRAM。此外,新模型的文件大小为1.6GB。
开源许可
Whisper large-v3-turbo继续沿用了MIT许可证,这意味着开发者们可以自由地使用和修改该模型及其相关的代码和模型权重,用于非商业目的的研究或其他项目。
0条评论