当前位置：首页 > 优惠 >大语言模型>文章详情

新方法HiRED：提高高分辨率视觉-语言模型（VLMs）在资源受限环境中的推理效率

推荐人：暴走AI| 商城: AI | 10个月前 (08-26)| 分类：大语言模型 | 热度：252 ℃

已关闭评论

新方法HiRED：提高高分辨率视觉-语言模型（VLMs）在资源受限环境中的推理效率

AI

弗吉尼亚理工大学、贝尔法斯特女王大学和都柏林大学学院的研究人员推出新方法HiRED（High-Resolution Early Dropping），它旨在提高高分辨率视觉-语言模型（VLMs）在资源受限环境中的推理效率。这些模型广泛应用于多模态任务中，如图像和文本的联合理解，但在处理高分辨率图像时，它们会产生大量的视觉令牌（tokens），这在计算上是一个挑战，尤其是在资源受限的设备上。

GitHub：https://github.com/hasanar1f/HiRED

例如，你正在使用一个视觉-语言模型来分析医学图像并生成报告。原始的高分辨率图像包含大量细节，但如果直接输入模型，可能会因为计算资源的限制而无法处理。HiRED方法可以在保持图像关键信息的同时，减少模型需要处理的视觉令牌数量，从而加快处理速度并减少内存使用。

主要功能：

在有限的资源下，提高高分辨率图像的推理效率。
通过减少视觉令牌的数量，加快模型的响应速度并降低GPU内存的使用。

主要特点：

无需额外训练：HiRED作为一个插件式框架，可以与现有的高分辨率VLMs集成，无需额外的训练。
保持高准确度：即使在减少视觉令牌的情况下，HiRED也能保持或接近完整模型的准确度。
早期丢弃：在大型语言模型（LLM）阶段之前，HiRED通过策略性地丢弃不重要的视觉令牌来减少计算负担。

工作原理：

HiRED利用视觉编码器中的注意力（attention）机制来评估每个图像分区的视觉内容，并据此分配令牌预算。然后，在最终层使用注意力来选择每个分区中最重要的视觉令牌，丢弃其余的令牌。这个过程包括两个阶段：

令牌预算分配：根据图像分区的视觉内容分配给定的令牌预算。
令牌丢弃：在分配的预算内，选择具有最高特征重要性的令牌，并丢弃其他令牌。

具体应用场景：

医疗图像分析：在资源受限的医疗环境中快速分析高分辨率的医学图像。
实时视频处理：在需要实时反馈的应用中，如视频监控或自动驾驶，HiRED可以快速处理视觉信息。
移动设备上的图像理解：在手机或平板电脑上，利用HiRED处理高分辨率图像，以实现高效的图像识别和分析。

论文还提供了实验结果，证明了HiRED在保持高准确度的同时，显著提高了推理吞吐量，减少了首次生成令牌的延迟，并节省了GPU内存。此外，作者还提供了HiRED的代码，以便其他研究者和开发者可以进一步探索和使用。

HiRED

声明： 猎游人每天为你带来最新的游戏和硬件打折情报，帮你精心挑选值得玩的游戏，让您的钱花的更值！本站信息大部分来自于网友爆料，如果您发现了优质的游戏或好的价格，不妨爆料给我们吧（谢绝任何商业爆料）！点此爆料

上一篇： FLoD: 在定制渲染中将可调节的细节层次整合到三维高斯溅射中

下一篇： GOG平台限时免费领取模拟经营类游戏《海岛大亨4》

0条评论

暂时木有评论

猜你喜欢

查看更多商品

我要爆料我的收藏顶部

© Copyright2019-2024 | 版权所有：猎游人| 皖ICP备18025588号-1

快速登录