摩尔线程和无问芯穹联合宣布,两家公司已经成功完成了MT-infini-3B模型的实训,这是一个拥有30亿参数的大型AI模型。实训基于摩尔线程的国产全功能GPU MTT S4000构建的大规模集群,以及无问芯穹的AIStudio PaaS平台。这次实训不仅证明了夸娥千卡智算集群在大规模模型训练中的高可靠性,还标志着国内大语言模型与国产GPU集群深度合作的新模式。
MT-infini-3B模型的训练耗时13.2天,整个过程稳定无中断,集群训练稳定性达到了100%,千卡训练的扩展效率超过了90%。实训结果表明,MT-infini-3B的性能在同类规模模型中处于领先地位。与在国际主流硬件(尤其是NVIDIA)上训练的模型相比,在C-Eval、MMLU、CMMLU等三个测试集上均实现了性能上的超越。
无问芯穹正在开发“M种模型”和“N种芯片”之间的中间层产品,旨在实现多种大型模型算法在不同芯片上的高效、统一部署,并已与摩尔线程建立了深度的战略合作关系。
摩尔线程成为首家接入无问芯穹并进行千卡级别大模型训练的国产GPU公司。夸娥千卡集群已与无穹Infini-AI成功完成了系统级融合适配,并完成了LLama2 700亿参数大模型的训练测试。
MT-infini-3B的训练案例是行业内首次基于国产GPU芯片实现的端到端大模型实训案例。
最近,憨猴集团也基于摩尔线程的夸娥千卡集群,成功完成了从7B到34B再到70B不同参数量级的大模型分布式训练,并且双方已经达成了战略合作。
经过双方的严格测试,系统的兼容性和适配性高,训练效率达到预期,精度符合要求,整个训练过程持续稳定。
0条评论