当前位置：首页 > 优惠 >大语言模型>文章详情

新型深度神经网络（DNN）训练方法2BP：提高大型深度神经网络（如大语言模型）在训练时的效率，特别是在多个加速器（如GPU）上并行训练时

推荐人：暴走AI| 商城: AI | 1年前 (2024-06-01)| 分类：大语言模型 | 热度：235 ℃

已关闭评论

新型深度神经网络（DNN）训练方法2BP：提高大型深度神经网络（如大语言模型）在训练时的效率，特别是在多个加速器（如GPU）上并行训练时

爱丁堡大学推出一种新的深度神经网络（DNN）训练方法，称为2-Stage Backpropagation（简称2BP）。这种方法旨在提高大型深度神经网络（如大语言模型）在训练时的效率，特别是在多个加速器（如GPU）上并行训练时。论文中通过实验表明，使用2BP在训练具有70亿参数的类似LLaMa的变换器模型时，与传统方法相比，可以实现1.70倍的吞吐量提升。这表明2BP是一个有效的策略，可以显著提高大型DNN在多GPU环境下的训练效率。

主要功能和特点：

提高训练效率：2BP通过将反向传播（backpropagation）过程分为两个阶段，减少了计算资源的空闲时间，从而提高了训练的吞吐量。
减少内存限制：在单个加速器内存不足以支持大型模型时，2BP允许模型参数在多个加速器上进行分片（sharding），以适应内存限制。
兼容性：2BP可以应用于各种模型架构，并与现有的流水线并行调度算法（如GPipe和1F1B）兼容。
灵活性：该方法提供了更大的灵活性来重新安排计算，使得在流水线并行训练中的不同加速器可以更高效地协同工作。

工作原理：

2BP的工作流程如下：

第一阶段（backward-p1）：计算损失函数关于前一层输出的梯度（∂L/∂zl−1），这一阶段与标准的反向传播过程类似。
第二阶段（backward-p2）：延迟计算损失函数关于当前层参数的梯度（∂L/∂wl），直到前一个加速器开始其反向传播过程。
流水线并行：通过这种方式，可以在不同的加速器上并行地执行多个微批次（micro-batches）的backward-p1和backward-p2，减少了因计算依赖性导致的空闲时间。