当前位置：首页 > 优惠 >大语言模型>文章详情

SHERL：为资源受限的迁移学习场景提供一种高效且准确的解决方案

推荐人：暴走AI| 商城: AI | 9个月前 (07-17)| 分类：大语言模型 | 热度：262 ℃

已关闭评论

大连理工大学、鲁汶大学、腾讯微信和香港科技大学的研究人员推出SHERL，它旨在为资源受限的迁移学习场景提供一种高效且准确的解决方案。SHERL的核心思想是将大型预训练模型适应到下游任务中，同时显著减少可训练参数并解决微调过程中的内存挑战。通过广泛的实验验证了SHERL在多个任务和不同架构上的有效性，展示了其在资源受限环境下的优越性能。

GitHub：https://github.com/Paranioar/SHERL

例如，你有一个大型的预训练视觉模型，你想将其应用于一个新的图像分类任务，但这个任务的数据集很小，无法承担全参数微调的计算成本。使用SHERL，你可以在不增加太多额外参数的情况下，通过少量的调整来适配这个新任务。例如，在图像-文本检索任务中，SHERL可以在保持内存使用率低的同时，通过学习将图像和文本特征更好地结合起来，以提高检索的准确性。

主要功能和特点：

参数和内存效率：SHERL通过在预训练模型的基础上添加少量的参数来实现迁移学习，同时保持了对内存的高效利用。
两阶段适应过程：SHERL将整个适应过程分解为两个互补的阶段：早期聚合和晚期调节。早期阶段通过反冗余操作增强中间输出的兼容性；晚期阶段则利用最少的预训练层进行调节，以减轻内存压力。
多级感知适配器（MTSA）：SHERL引入了一个创新的模块，用于在不同层次的特征之间进行有效聚合，减少跨层冗余，并提高特征的区分性。