“中国电信人工智能研究院”官方公众号今日宣布,该院成功完成国内首个基于全国产化万卡集群训练的万亿参数大模型,并正式对外开源首个基于全国产化万卡集群和国产深度学习框架训练的千亿参数大模型——星辰语义大模型 TeleChat2-115B。
- GitHub:https://github.com/Tele-AI/TeleChat2
- Gitee:https://gitee.com/Tele-AI/tele-chat2
- ModelScope:https://modelscope.cn/models/TeleAI/TeleChat2-115B
- Modelers:https://modelers.cn/models/TeleAI/TeleChat2-115B
全国产化替代新阶段
官方表示,这项科研成果标志着国产大模型训练真正实现全国产化替代,正式进入全国产自主创新、安全可控的新阶段。
TeleChat2-115B 模型特点
- 训练平台:基于中国电信自研的天翼云“息壤一体化智算服务平台”和人工智能公司“星海 AI 平台”训练完成。
- 效率与稳定性:在保证训练精度的前提下,通过多种优化手段提升模型训练效率和稳定性,实现了 GPU 同等算力计算效率超 93%,模型有效训练时长占比超 98%。
- 超大参数模型训练:采用大量小模型进行 Scaling,验证不同模型结构的有效性。
- 数据配比:基于小模型实验结果反馈,采用回归预测模型,得到较优数据配比。
后训练策略
- SFT(监督式微调):针对数学、代码和逻辑推理等内容合成了大量问答数据,用于模型训练。
- 迭代式更新策略:使用模型对提示词数据进行指令复杂性提升与多样性扩充。
- 答案质量提升:通过模型合成和人工标注提升答案质量。
- 优质数据获取:利用拒绝采样获取优质 SFT 数据及 RM(奖励模型)代表性数据,用于 SFT 训练和 DPO(偏好对齐)训练,以及模型效果迭代。
0条评论