当前位置：首页 > 优惠 >大语言模型>文章详情

专门为视觉应用设计的新型混合模型架构MambaVision

推荐人：暴走AI| 商城: AI | 9个月前 (07-13)| 分类：大语言模型 | 热度：190 ℃

已关闭评论

英伟达推出一种新型的混合模型架构——MambaVision，它是专门为视觉应用设计的。MambaVision的核心贡献在于重新设计了Mamba公式，以增强其对视觉特征的高效建模能力。此外，论文还对将视觉变换器（ViT）与Mamba集成的可行性进行了全面的研究。

GitHub：https://github.com/NVlabs/MambaVision

例如，你正在开发一个自动驾驶系统，需要一个能够快速准确地识别和分类道路标志、行人、车辆等的模型。MambaVision可以作为一个高效的骨干网络，它能够在保持高准确率的同时处理高分辨率的图像，并且具有高图像吞吐量，这对于实时处理大量视觉数据至关重要。通过使用MambaVision，系统可以更好地理解周围环境，做出快速而准确的驾驶决策。

主要功能：

图像分类：在ImageNet-1K数据集上进行图像分类任务，MambaVision模型变体在Top-1准确率和图像吞吐量方面取得了新的最佳性能。
下游任务：在MS COCO和ADE20K数据集上进行目标检测、实例分割和语义分割等任务，MambaVision表现出比同等规模的后端骨干网络更优越的性能。

主要特点：

混合架构：MambaVision采用了一种混合架构，结合了Mamba和Transformer模块，特别是在模型的最后几层中加入了自注意力模块，以提高对全局上下文和长距离空间依赖的捕捉能力。
层次化设计：MambaVision具有层次化的架构，以满足不同的设计标准。
高效性能：在保持高准确率的同时，MambaVision还能够实现高图像吞吐量，这在处理大规模图像数据时尤为重要。

工作原理：

Mamba重新设计：对Mamba模块进行重新设计，以适应视觉任务的需求，包括替换因果卷积为常规卷积，并添加对称分支以补偿SSM的顺序约束可能丢失的内容。
混合集成模式：研究了不同的Mamba和Transformer模块集成模式，发现在最后阶段使用自注意力模块可以显著提升模型性能。
多分辨率架构：MambaVision利用基于CNN的残差块进行快速特征提取，同时在低分辨率下使用SSM和自注意力来捕捉细节。