当前位置：首页 > 优惠 >大语言模型>文章详情

MiniCPM: 揭示端侧大语言模型的无限潜力

推荐人：暴走AI| 商城: AI | 1年前 (2024-04-10)| 分类：大语言模型 | 热度：197 ℃

已关闭评论

面壁智能与清华大学自然语言处理实验室共同开源的系列端侧大模型MiniCPM，旨在探索在资源有限的情况下，如何有效地训练和部署语言模型。MiniCPM系列包括两个主要模型，分别是拥有1.2亿和2.4亿非嵌入参数的变体。尽管模型规模较小，但它们在各种任务上的表现与大型语言模型（LLMs）相当，甚至在某些情况下能与参数量达到70-130亿的模型媲美。

GitHub：https://github.com/OpenBMB/MiniCPM

主要功能和特点：

高效训练： MiniCPM模型通过可扩展的训练策略，在较小的数据和模型规模下实现高效训练。
优异性能： 尽管模型小，但MiniCPM在多语言任务和代码理解等方面表现出色，与更大的模型相比具有竞争力。
可扩展性： 论文提出了一种可扩展的训练方法，包括模型和数据维度的扩展，为未来LLMs的研究提供了方向。
WSD学习率调度器（LRS）： 引入了一种新的学习率调度策略，有助于模型的连续训练和领域适应。

工作原理：

模型和数据扩展： 通过模型风洞实验（MWTE）对超参数进行优化，以及使用WSD LRS来实现模型的稳定和最优扩展。
WSD LRS： 该学习率调度策略将训练阶段明确划分为高学习率阶段和学习率衰减阶段，有助于在训练过程中找到更好的局部最优解。
数据-模型缩放定律： 使用WSD LRS来研究数据量与模型大小的比例，发现与Chinchilla Optimal相比，实际数据量与模型大小的比例要高得多。

具体应用场景：