弗吉尼亚理工大学、贝尔法斯特女王大学和都柏林大学学院的研究人员推出新方法HiRED(High-Resolution Early Dropping),它旨在提高高分辨率视觉-语言模型(VLMs)在资源受限环境中的推理效率。这些模型广泛应用于多模态任务中,如图像和文本的联合理解,但在处理高分辨率图像时,它们会产生大量的视觉令牌(tokens),这在计算上是一个挑战,尤其是在资源受限的设备上。
- GitHub:https://github.com/hasanar1f/HiRED
例如,你正在使用一个视觉-语言模型来分析医学图像并生成报告。原始的高分辨率图像包含大量细节,但如果直接输入模型,可能会因为计算资源的限制而无法处理。HiRED方法可以在保持图像关键信息的同时,减少模型需要处理的视觉令牌数量,从而加快处理速度并减少内存使用。
主要功能:
- 在有限的资源下,提高高分辨率图像的推理效率。
- 通过减少视觉令牌的数量,加快模型的响应速度并降低GPU内存的使用。
主要特点:
- 无需额外训练:HiRED作为一个插件式框架,可以与现有的高分辨率VLMs集成,无需额外的训练。
- 保持高准确度:即使在减少视觉令牌的情况下,HiRED也能保持或接近完整模型的准确度。
- 早期丢弃:在大型语言模型(LLM)阶段之前,HiRED通过策略性地丢弃不重要的视觉令牌来减少计算负担。
工作原理:
HiRED利用视觉编码器中的注意力(attention)机制来评估每个图像分区的视觉内容,并据此分配令牌预算。然后,在最终层使用注意力来选择每个分区中最重要的视觉令牌,丢弃其余的令牌。这个过程包括两个阶段:
- 令牌预算分配:根据图像分区的视觉内容分配给定的令牌预算。
- 令牌丢弃:在分配的预算内,选择具有最高特征重要性的令牌,并丢弃其他令牌。
具体应用场景:
- 医疗图像分析:在资源受限的医疗环境中快速分析高分辨率的医学图像。
- 实时视频处理:在需要实时反馈的应用中,如视频监控或自动驾驶,HiRED可以快速处理视觉信息。
- 移动设备上的图像理解:在手机或平板电脑上,利用HiRED处理高分辨率图像,以实现高效的图像识别和分析。
论文还提供了实验结果,证明了HiRED在保持高准确度的同时,显著提高了推理吞吐量,减少了首次生成令牌的延迟,并节省了GPU内存。此外,作者还提供了HiRED的代码,以便其他研究者和开发者可以进一步探索和使用。
0条评论