新方法HiRED:提高高分辨率视觉-语言模型(VLMs)在资源受限环境中的推理效率

分类:大语言模型 | 热度:14 ℃

弗吉尼亚理工大学、贝尔法斯特女王大学和都柏林大学学院的研究人员推出新方法HiRED(High-Resolution Early Dropping),它旨在提高高分辨率视觉-语言模型(VLMs)在资源受限环境中的推理效率。这些模型广泛应用于多模态任务中,如图像和文本的联合理解,但在处理高分辨率图像时,它们会产生大量的视觉令牌(tokens),这在计算上是一个挑战,尤其是在资源受限的设备上。

  • GitHub:https://github.com/hasanar1f/HiRED

例如,你正在使用一个视觉-语言模型来分析医学图像并生成报告。原始的高分辨率图像包含大量细节,但如果直接输入模型,可能会因为计算资源的限制而无法处理。HiRED方法可以在保持图像关键信息的同时,减少模型需要处理的视觉令牌数量,从而加快处理速度并减少内存使用。

主要功能:

  • 在有限的资源下,提高高分辨率图像的推理效率。
  • 通过减少视觉令牌的数量,加快模型的响应速度并降低GPU内存的使用。

主要特点:

  1. 无需额外训练:HiRED作为一个插件式框架,可以与现有的高分辨率VLMs集成,无需额外的训练。
  2. 保持高准确度:即使在减少视觉令牌的情况下,HiRED也能保持或接近完整模型的准确度。
  3. 早期丢弃:在大型语言模型(LLM)阶段之前,HiRED通过策略性地丢弃不重要的视觉令牌来减少计算负担。

工作原理:

HiRED利用视觉编码器中的注意力(attention)机制来评估每个图像分区的视觉内容,并据此分配令牌预算。然后,在最终层使用注意力来选择每个分区中最重要的视觉令牌,丢弃其余的令牌。这个过程包括两个阶段:

  1. 令牌预算分配:根据图像分区的视觉内容分配给定的令牌预算。
  2. 令牌丢弃:在分配的预算内,选择具有最高特征重要性的令牌,并丢弃其他令牌。

具体应用场景:

  • 医疗图像分析:在资源受限的医疗环境中快速分析高分辨率的医学图像。
  • 实时视频处理:在需要实时反馈的应用中,如视频监控或自动驾驶,HiRED可以快速处理视觉信息。
  • 移动设备上的图像理解:在手机或平板电脑上,利用HiRED处理高分辨率图像,以实现高效的图像识别和分析。

论文还提供了实验结果,证明了HiRED在保持高准确度的同时,显著提高了推理吞吐量,减少了首次生成令牌的延迟,并节省了GPU内存。此外,作者还提供了HiRED的代码,以便其他研究者和开发者可以进一步探索和使用。

声明: 猎游人 每天为你带来最新的游戏和硬件打折情报,帮你精心挑选值得玩的游戏,让您的钱花的更值!本站信息大部分来自于网友爆料,如果您发现了优质的游戏或好的价格,不妨爆料给我们吧(谢绝任何商业爆料)! 点此爆料

0条评论

Hi,您需要填写昵称和邮箱!
姓名 (必填)
邮箱 (必填)
网站

暂时木有评论