由多家企业和机构组成的日本联合研究团队近日发布了一款基于 Arm 架构超级计算机“富岳”训练的大型语言模型 Fugaku-LLM。
开发背景
- 启动时间:2023年5月
- 初期参与机构:富士通(富岳超算所有者)、东京工业大学、日本东北大学、日本理化学研究所(理研)
合作扩展
- 新增合作方(2023年8月):名古屋大学、CyberAgent(游戏企业 Cygames 的母公司)、Kotoba Technologies(HPC-AI 领域创新企业)
性能提升
研究团队在新闻稿中指出,Fugaku-LLM 充分利用了富岳超算的强大性能:
- 矩阵乘法计算速度:提升6倍
- 通信速度:提升3倍 这一成果表明,即使是纯 CPU 架构的超算也能高效地用于大型模型的训练。
模型规模与特点
- 参数规模:13B(日本国内最大)
- 训练节点:使用13824个富岳超算节点
- 训练 Token 数量:3800亿个
- 训练资料:60% 日语,40% 包括英语、数学、代码等
- 特殊功能:模型能够自然地使用日语敬语等特殊表达方式
测试成绩
- 日语 MT-Bench 模型基准测试:平均得分5.5,位居基于日本语料资源的开放模型第一
- 人文社科类别得分:9.18,表现突出
公开与应用
Fugaku-LLM 模型现已在 GitHub 和 Hugging Face 平台公开,遵守许可协议的外部研究人员和工程师可以将其用于学术研究和商业开发。
0条评论