英伟达公司联合Meta公司发布了最新的Llama-3.1-Minitron 4B模型。这款模型通过结构化权重剪枝、知识提炼等尖端技术,成功实现了性能与效率的双重提升。
- 模型地址:https://huggingface.co/nvidia/Llama-3.1-Minitron-4B-Width-Base
深度与宽度的结构化剪枝
Llama-3.1-Minitron 4B模型在Llama-3.1-Minitron 8B基础上,经过深度和宽度方向的结构化剪枝技术处理。剪枝技术是删除网络中不那么重要的层或神经元的方法,目的是在不损失性能的前提下,减小模型的体积和复杂性。
深度剪枝:从8B到4B的转变
英伟达通过删除16层网络,将模型从8B缩减至4B。同时,还采用了宽度剪枝技术,修剪嵌入维度和MLP中间层。除了剪枝技术,英伟达还采用了知识蒸馏技术来提高Llama-3.1-Minitron 4B的效率。知识蒸馏是一个训练过程,其中较小的模型(学生)模仿一个更大、更复杂的模型(教师)的行为。这使得小模型能够保留原始模型的大部分预测能力,同时运行速度更快,资源消耗更少。通过结合蒸馏技术和剪枝技术,英伟达确保了重新训练的4B模型在保持优异性能的同时,也能在更大的模型中得到有效应用。
0条评论