当前位置：首页 > 优惠 >大语言模型>文章详情

探讨如何高效地预训练大语言模型：在消耗较少的token数量时就能达到与常规训练方法相似的性能

推荐人：暴走AI| 商城: AI | 1年前 (2024-05-27)| 分类：大语言模型 | 热度：236 ℃

已关闭评论

探讨如何高效地预训练大语言模型：在消耗较少的token数量时就能达到与常规训练方法相似的性能

香港大学、香港科技大学、中国科技大学、清华大学、爱丁堡大学和MIT-IBM Watson AI 实验室的研究人员发布论文，论文的主题是探讨如何高效地预训练大语言模型（LLMs）。大语言模型（LLMs）因其规模庞大，在预训练阶段需要消耗大量的计算资源，这不仅成本高昂，而且对环境也有一定影响。为了解决这个问题，研究者们提出了一种称为“模型增长”（model growth）的方法，该方法通过利用较小的模型来加速更大模型的训练。论文中还提到了一些具体的案例，比如使用Gstack训练的7B参数模型，在消耗较少的token数量时就能达到与常规训练方法相似的性能，从而实现了显著的速度提升。这表明模型增长技术不仅能够加速训练，还能够提高训练过程的效率。

项目主页：https://llm-stacking.github.io/
论文：https://arxiv.org/pdf/2405.15319
GitHub：https://github.com/tongxuluo/prts
模型：https://huggingface.co/llm-stacking

主要功能和特点：

模型增长技术：通过将小型模型的参数作为初始化，来加速大型模型的训练，这种方法被称为模型增长。
系统性评估：研究者们将现有的模型增长方法归纳为四种基本的增长操作符，并在标准化的LLM预训练环境中进行了系统性评估。
深度堆叠操作符（Gstack）：在这些增长操作符中，一种称为Gstack的深度堆叠操作符表现出了显著的训练加速效果，能够降低损失并提高在多个标准NLP基准测试上的整体性能。
可扩展性：Gstack证明了其可扩展性，即使在扩大到7B参数的LLMs和使用750B个token进行预训练时，也表现出色。
实证指导：论文提出了实证指导原则，帮助确定Gstack的增长时机和增长因子，使其在一般的LLM预训练中更实用。

工作原理： 模型增长的核心思想是利用已经训练好的较小模型来初始化一个更大的模型。这样做的好处是可以保留小模型已经学到的知识，并加速大模型的训练过程。具体到Gstack，它通过深度堆叠小模型的层来构建一个大模型，这种方法在训练时可以显著减少所需的计算资源。

具体应用场景：