当前位置：首页 > 优惠 >大语言模型>文章详情

基于幅度的梯度更新的新方法MIGU：解决语言模型在持续学习中面临的灾难性遗忘问题

推荐人：暴走AI| 商城: AI | 1年前 (2024-06-29)| 分类：大语言模型 | 热度：308 ℃

已关闭评论

基于幅度的梯度更新的新方法MIGU：解决语言模型在持续学习中面临的灾难性遗忘问题

AI

香港大学、中国科学院信息与通信技术研究所、香港中文大学深圳分校、清华大学、爱丁堡大学、英伟达和香港科技大学的研究人员推出新方法MIGU（基于幅度的梯度更新，用于持续学习），旨在解决语言模型（LMs）在持续学习（Continual Learning, CL）中面临的灾难性遗忘问题。灾难性遗忘是指模型在学习新知识时会遗忘旧知识，这限制了模型在长期学习过程中的可持续性。MIGU是一种创新的方法，它通过简化梯度更新过程来提高语言模型在持续学习中的性能，使其能够更有效地处理多任务和跨领域的问题。

GitHub：https://github.com/wenyudu/MIGU

例如，我们有一个语言模型，需要依次学习三个不同的任务：情感分析、文本摘要和机器翻译。使用MIGU，模型在完成每个任务的训练后，不会完全忘记之前任务的知识。例如，在完成情感分析任务后，模型在学习文本摘要任务时，仍然能够保留对情感倾向的理解，这对于生成与情感相关的摘要可能是有益的。

主要功能和特点：

无复习（Rehearsal-Free）：MIGU不需要使用旧任务数据，这与传统的复习基础方法不同。
无需任务标签（Task-Label-Free）：它不依赖于任务标签来设计技术，这与传统的基于架构或参数的方法不同。
幅度分布差异利用：MIGU利用了语言模型线性层输出幅度分布的内在差异，这些差异在处理不同任务时表现出不同。
梯度更新简化：在反向传播阶段，MIGU只更新那些在L1标准化幅度中具有较大值的模型参数。

工作原理：

MIGU的工作原理分为两个步骤：

前向传播：在这一阶段，系统会缓存和标准化线性层的输出幅度。
反向传播：在这一阶段，系统会根据缓存的幅度生成一个掩码，然后只更新那些幅度最大的参数，这是通过设置一个预定义的阈值比例T来实现的。

具体应用场景：

MIGU可以应用于各种需要持续学习的场景，例如：

多任务学习：在多任务学习中，模型需要依次学习多个任务，而MIGU可以帮助模型在学习新任务时保留对旧任务的记忆。
领域适应：在领域适应的场景中，模型可能需要学习来自不同领域的数据，MIGU可以帮助模型适应新领域而不遗忘旧知识。
在线学习：在在线学习环境中，数据持续不断地到来，MIGU可以帮助模型有效地整合新信息，同时保持对之前数据的理解。

MIGU

声明： 猎游人每天为你带来最新的游戏和硬件打折情报，帮你精心挑选值得玩的游戏，让您的钱花的更值！本站信息大部分来自于网友爆料，如果您发现了优质的游戏或好的价格，不妨爆料给我们吧（谢绝任何商业爆料）！点此爆料

上一篇： YOUDREAM：根据文本描述生成高质量、解剖学上可控且一致的3D动物模型

下一篇：新型多模态大语言模型MG-LLaVA

0条评论

暂时木有评论

猜你喜欢

查看更多商品

我要爆料我的收藏顶部

© Copyright2019-2024 | 版权所有：猎游人| 皖ICP备18025588号-1

快速登录