基于幅度的梯度更新的新方法MIGU:解决语言模型在持续学习中面临的灾难性遗忘问题

分类:大语言模型 | 热度:104 ℃

香港大学 、中国科学院信息与通信技术研究所、香港中文大学深圳分校、清华大学、爱丁堡大学、英伟达和香港科技大学的研究人员推出新方法MIGU(基于幅度的梯度更新,用于持续学习),旨在解决语言模型(LMs)在持续学习(Continual Learning, CL)中面临的灾难性遗忘问题。灾难性遗忘是指模型在学习新知识时会遗忘旧知识,这限制了模型在长期学习过程中的可持续性。MIGU是一种创新的方法,它通过简化梯度更新过程来提高语言模型在持续学习中的性能,使其能够更有效地处理多任务和跨领域的问题。

  • GitHub:https://github.com/wenyudu/MIGU

例如,我们有一个语言模型,需要依次学习三个不同的任务:情感分析、文本摘要和机器翻译。使用MIGU,模型在完成每个任务的训练后,不会完全忘记之前任务的知识。例如,在完成情感分析任务后,模型在学习文本摘要任务时,仍然能够保留对情感倾向的理解,这对于生成与情感相关的摘要可能是有益的。

主要功能和特点:

  1. 无复习(Rehearsal-Free):MIGU不需要使用旧任务数据,这与传统的复习基础方法不同。
  2. 无需任务标签(Task-Label-Free):它不依赖于任务标签来设计技术,这与传统的基于架构或参数的方法不同。
  3. 幅度分布差异利用:MIGU利用了语言模型线性层输出幅度分布的内在差异,这些差异在处理不同任务时表现出不同。
  4. 梯度更新简化:在反向传播阶段,MIGU只更新那些在L1标准化幅度中具有较大值的模型参数。

工作原理:

MIGU的工作原理分为两个步骤:

  1. 前向传播:在这一阶段,系统会缓存和标准化线性层的输出幅度。
  2. 反向传播:在这一阶段,系统会根据缓存的幅度生成一个掩码,然后只更新那些幅度最大的参数,这是通过设置一个预定义的阈值比例T来实现的。

具体应用场景:

MIGU可以应用于各种需要持续学习的场景,例如:

  • 多任务学习:在多任务学习中,模型需要依次学习多个任务,而MIGU可以帮助模型在学习新任务时保留对旧任务的记忆。
  • 领域适应:在领域适应的场景中,模型可能需要学习来自不同领域的数据,MIGU可以帮助模型适应新领域而不遗忘旧知识。
  • 在线学习:在在线学习环境中,数据持续不断地到来,MIGU可以帮助模型有效地整合新信息,同时保持对之前数据的理解。
声明: 猎游人 每天为你带来最新的游戏和硬件打折情报,帮你精心挑选值得玩的游戏,让您的钱花的更值!本站信息大部分来自于网友爆料,如果您发现了优质的游戏或好的价格,不妨爆料给我们吧(谢绝任何商业爆料)! 点此爆料

0条评论

Hi,您需要填写昵称和邮箱!
姓名 (必填)
邮箱 (必填)
网站

暂时木有评论