大连理工大学、鲁汶大学、腾讯微信和香港科技大学的研究人员推出SHERL,它旨在为资源受限的迁移学习场景提供一种高效且准确的解决方案。SHERL的核心思想是将大型预训练模型适应到下游任务中,同时显著减少可训练参数并解决微调过程中的内存挑战。通过广泛的实验验证了SHERL在多个任务和不同架构上的有效性,展示了其在资源受限环境下的优越性能。
- GitHub:https://github.com/Paranioar/SHERL
例如,你有一个大型的预训练视觉模型,你想将其应用于一个新的图像分类任务,但这个任务的数据集很小,无法承担全参数微调的计算成本。使用SHERL,你可以在不增加太多额外参数的情况下,通过少量的调整来适配这个新任务。例如,在图像-文本检索任务中,SHERL可以在保持内存使用率低的同时,通过学习将图像和文本特征更好地结合起来,以提高检索的准确性。
主要功能和特点:
- 参数和内存效率:SHERL通过在预训练模型的基础上添加少量的参数来实现迁移学习,同时保持了对内存的高效利用。
- 两阶段适应过程:SHERL将整个适应过程分解为两个互补的阶段:早期聚合和晚期调节。早期阶段通过反冗余操作增强中间输出的兼容性;晚期阶段则利用最少的预训练层进行调节,以减轻内存压力。
- 多级感知适配器(MTSA):SHERL引入了一个创新的模块,用于在不同层次的特征之间进行有效聚合,减少跨层冗余,并提高特征的区分性。
工作原理:
- 早期聚合:SHERL首先将输入和浅层特征映射到低维空间,并通过全连接层和非线性激活层进行处理,以增强特征并减少跨层的冗余。
- 晚期调节:在聚合了早期特征之后,SHERL使用一个通用的上投影层将特征恢复到原始输入的大小,并通过额外的门控参数控制增强特征与原始层输入的混合比例。
- 特征传输和适配:SHERL利用预训练模型中的最后几层进行特征的动态调节,使其自动适应于新领域的输入输出模式。
具体应用场景:
- 视觉和语言任务:SHERL可以应用于图像-文本检索、视频-文本检索、视觉问题回答等多模态任务。
- 纯语言任务:SHERL同样适用于GLUE基准测试中的各种自然语言处理任务,如情感分析、语义相似性评估和自然语言推理。
0条评论