SHERL:为资源受限的迁移学习场景提供一种高效且准确的解决方案

分类:大语言模型 | 热度:91 ℃

大连理工大学、鲁汶大学、腾讯微信和香港科技大学的研究人员推出SHERL,它旨在为资源受限的迁移学习场景提供一种高效且准确的解决方案。SHERL的核心思想是将大型预训练模型适应到下游任务中,同时显著减少可训练参数并解决微调过程中的内存挑战。通过广泛的实验验证了SHERL在多个任务和不同架构上的有效性,展示了其在资源受限环境下的优越性能。

  • GitHub:https://github.com/Paranioar/SHERL

例如,你有一个大型的预训练视觉模型,你想将其应用于一个新的图像分类任务,但这个任务的数据集很小,无法承担全参数微调的计算成本。使用SHERL,你可以在不增加太多额外参数的情况下,通过少量的调整来适配这个新任务。例如,在图像-文本检索任务中,SHERL可以在保持内存使用率低的同时,通过学习将图像和文本特征更好地结合起来,以提高检索的准确性。

主要功能和特点:

  1. 参数和内存效率:SHERL通过在预训练模型的基础上添加少量的参数来实现迁移学习,同时保持了对内存的高效利用。
  2. 两阶段适应过程:SHERL将整个适应过程分解为两个互补的阶段:早期聚合和晚期调节。早期阶段通过反冗余操作增强中间输出的兼容性;晚期阶段则利用最少的预训练层进行调节,以减轻内存压力。
  3. 多级感知适配器(MTSA):SHERL引入了一个创新的模块,用于在不同层次的特征之间进行有效聚合,减少跨层冗余,并提高特征的区分性。

工作原理:

  1. 早期聚合:SHERL首先将输入和浅层特征映射到低维空间,并通过全连接层和非线性激活层进行处理,以增强特征并减少跨层的冗余。
  2. 晚期调节:在聚合了早期特征之后,SHERL使用一个通用的上投影层将特征恢复到原始输入的大小,并通过额外的门控参数控制增强特征与原始层输入的混合比例。
  3. 特征传输和适配:SHERL利用预训练模型中的最后几层进行特征的动态调节,使其自动适应于新领域的输入输出模式。

具体应用场景:

  1. 视觉和语言任务:SHERL可以应用于图像-文本检索、视频-文本检索、视觉问题回答等多模态任务。
  2. 纯语言任务:SHERL同样适用于GLUE基准测试中的各种自然语言处理任务,如情感分析、语义相似性评估和自然语言推理。
声明: 猎游人 每天为你带来最新的游戏和硬件打折情报,帮你精心挑选值得玩的游戏,让您的钱花的更值!本站信息大部分来自于网友爆料,如果您发现了优质的游戏或好的价格,不妨爆料给我们吧(谢绝任何商业爆料)! 点此爆料

0条评论

Hi,您需要填写昵称和邮箱!
姓名 (必填)
邮箱 (必填)
网站

暂时木有评论