摩尔线程近日宣布开源其开发的音频理解大模型——MooER(摩耳),这标志着业界首个基于国产全功能GPU进行训练和推理的大型开源语音模型的诞生。
-
Github 地址:https://github.com/MooreThreads/MooER
MooER模型亮点
- 国产GPU训练:MooER模型基于摩尔线程夸娥(KUAE)智算平台,展示了国产GPU的强大计算能力。
- 快速训练:该模型在短短38小时内完成了5000小时音频数据和伪标签的训练,效率惊人。
- 多语言支持:MooER不仅支持中文和英文的语音识别,还具备中译英的语音翻译能力。
- 接近工业级效果:在Covost2中译英测试集中,MooER-5K模型取得了25.2的BLEU分数,显示出接近工业级的效果。
开源贡献
- 代码开源:摩尔线程AI团队开源了推理代码以及5000小时数据训练的模型,为社区贡献了宝贵的资源。
- 持续贡献:团队计划进一步开源训练代码,并推出基于8万小时数据训练的模型,以促进技术交流和发展。
模型结构
MooER模型的结构由三个核心部分组成:
- Encoder(编码器):负责将输入的语音信号转换成特征表示。
- Adapter(适配器):用于调整和优化模型的输出,以适应不同的任务需求。
- Decoder(解码器):结合Large Language Model(大语言模型,LLM),生成最终的文本结果。
0条评论