当前位置：首页 > 优惠 >大语言模型>文章详情

新型视觉模型MM-SAM：处理多种传感器数据，进行鲁棒且准确的场景分割

推荐人：暴走AI| 商城: AI | 10个月前 (08-21)| 分类：大语言模型 | 热度：331 ℃

已关闭评论

新加坡南洋理工大学、日本东京大学、RIKEN AIP和日本奈良科学技术大学的研究人员推出新型视觉模型MM-SAM（Multi-Modal Segment Anything Model），它能够处理多种传感器数据，进行鲁棒且准确的场景分割。场景分割是一种让计算机识别并区分图像中各个物体或区域的技术，这项技术在自动驾驶、机器人导航、医学成像分析等领域非常重要。

项目主页：https://xiaoaoran.github.io/projects/MM-SAM
GitHub：https://github.com/weihao1115/mm-sam

例如，一个自动驾驶车辆需要识别和避开行人，车辆上的摄像头可能因为光线问题无法清晰成像，但如果车辆配备了热成像传感器，即使在夜间或光线不足的情况下，MM-SAM也能够利用热成像数据准确识别出行人，从而提高自动驾驶的安全性。

主要功能：

跨模态和多模态分割：MM-SAM能够处理包括RGB（彩色图像）、深度、热成像、激光雷达（LiDAR）、高光谱、合成孔径雷达（SAR）等多种传感器数据，并对图像中的内容进行分割。
无需标注的适应性训练：MM-SAM通过无监督的方式适应新模态的数据，不需要大量的标注数据，从而降低了训练成本。

主要特点：

轻量级调整模块：MM-SAM在保持原有SAM模型核心参数固定的同时，引入了轻量级的调整模块，以适应不同的传感器数据。
高效的融合策略：通过弱监督多模态融合技术，MM-SAM能够智能地结合来自不同传感器的信息，提高分割的准确性和鲁棒性。
无需标注的泛化能力：即使在没有标注数据的情况下，MM-SAM也能够适应新的传感器模态，这在数据难以获取的场景下非常有用。

工作原理：

MM-SAM基于SAM（Segment Anything Model）模型，通过引入两个关键模块来增强其处理多模态数据的能力：无监督跨模态迁移（UCMT）和弱监督多模态融合（WMMF）。
UCMT通过在SAM的图像编码器中引入模态特定的嵌入模块和参数高效调整，来适应不同传感器的数据。
WMMF通过选择性融合门（SFG）和多模态伪标签生成，实现对多模态数据的融合和分割，而无需真实的标注数据。

具体应用场景：