德克萨斯大学奥斯汀分校、 萨里大学、 牛津大学、加州理工学院和Meta AI的研究人员推出新方法Q-GaLore,它用于提高训练大语言模型(LLMs)时的内存效率。大型语言模型是一类拥有数十亿参数的人工智能模型,它们在各种任务中表现出色,但训练这些模型需要巨大的内存和计算资源。实验结果表明,Q-GaLore在预训练和微调任务中都能实现与全参数训练相当的性能,同时显著提高了内存效率。这使得在资源受限的设备上训练和部署大型语言模型成为可能。
- GitHub:https://github.com/VITA-Group/Q-GaLore
例如,你有一个大型语言模型,需要在有限的硬件资源上进行训练。使用Q-GaLore,你可以在不牺牲模型性能的前提下,通过量化模型的权重和投影矩阵,减少内存使用。例如,在微调阶段,Q-GaLore相比其他方法(如LoRA和GaLore)可以减少高达50%的内存消耗,同时在MMLU任务上性能更优。
主要功能:
- Q-GaLore旨在减少训练大型语言模型时的内存使用量,同时保持模型性能。
主要特点:
- 量化和低秩投影结合:通过量化(将模型权重和投影矩阵转换为低精度格式)和低秩投影(减少模型参数的存储需求),显著降低内存使用。
- 适应性更新:根据每层在训练过程中的收敛情况,自适应地更新梯度子空间,减少不必要的计算。
- 随机舍入技术:在低精度权重更新中使用随机舍入,以保持训练稳定性并近似高精度训练轨迹。
工作原理:
- 梯度子空间的量化:将模型权重和投影矩阵量化到INT8和INT4格式,以减少内存占用。
- 适应性梯度子空间更新:监测不同层的梯度子空间收敛情况,对于变化不大的层,减少奇异值分解(SVD)操作的频率。
- 随机舍入:在更新低精度权重时,使用随机舍入来捕捉梯度信息,避免信息丢失。
具体应用场景:
- 预训练:从头开始训练大型语言模型,例如在单个NVIDIA RTX 4060 Ti(只有16GB内存)上训练LLaMA-7B模型。
- 微调:在特定下游任务上对预训练的模型进行微调,例如在GLUE基准测试和MMLU任务上进行自然语言理解能力的评估。
0条评论