富岳超算上训练大模型!日本联合研究团队发布 Fugaku-LLM 大模型

分类:大语言模型 | 热度:214 ℃

由多家企业和机构组成的日本联合研究团队近日发布了一款基于 Arm 架构超级计算机“富岳”训练的大型语言模型 Fugaku-LLM。

开发背景

  • 启动时间:2023年5月
  • 初期参与机构:富士通(富岳超算所有者)、东京工业大学、日本东北大学、日本理化学研究所(理研)

合作扩展

  • 新增合作方(2023年8月):名古屋大学、CyberAgent(游戏企业 Cygames 的母公司)、Kotoba Technologies(HPC-AI 领域创新企业)

性能提升

研究团队在新闻稿中指出,Fugaku-LLM 充分利用了富岳超算的强大性能:

  • 矩阵乘法计算速度:提升6倍
  • 通信速度:提升3倍 这一成果表明,即使是纯 CPU 架构的超算也能高效地用于大型模型的训练。

模型规模与特点

  • 参数规模:13B(日本国内最大)
  • 训练节点:使用13824个富岳超算节点
  • 训练 Token 数量:3800亿个
  • 训练资料:60% 日语,40% 包括英语、数学、代码等
  • 特殊功能:模型能够自然地使用日语敬语等特殊表达方式

测试成绩

  • 日语 MT-Bench 模型基准测试:平均得分5.5,位居基于日本语料资源的开放模型第一
  • 人文社科类别得分:9.18,表现突出

公开与应用

Fugaku-LLM 模型现已在 GitHub 和 Hugging Face 平台公开,遵守许可协议的外部研究人员和工程师可以将其用于学术研究和商业开发。

富岳超算上训练大模型!日本联合研究团队发布 Fugaku-LLM 大模型

声明: 猎游人 每天为你带来最新的游戏和硬件打折情报,帮你精心挑选值得玩的游戏,让您的钱花的更值!本站信息大部分来自于网友爆料,如果您发现了优质的游戏或好的价格,不妨爆料给我们吧(谢绝任何商业爆料)! 点此爆料

0条评论

Hi,您需要填写昵称和邮箱!
姓名 (必填)
邮箱 (必填)
网站

暂时木有评论