上海交通大学、上海人工智能实验室和南洋理工大学的研究人员推出新型多模态大语言模型MG-LLaVA,它在视觉理解任务上取得了显著的进步。例如,你有一个能够“看”图片和“读”文字的智能助手,但以前的这种助手只能处理低分辨率的图片,这限制了它们理解细节的能力。MG-LLaVA通过增加多粒度视觉处理能力,比如低分辨率、高分辨率和以对象为中心的特征,来克服这个限制。实验结果表明,MG-LLaVA在多个基准测试中超越了参数规模相当的现有MLLMs,显示出其卓越的效能。
- 项目主页:https://phoenixz810.github.io/MGLLaVA
- GitHub:https://github.com/PhoenixZ810/MG-LLaVA
主要功能和特点:
- 多粒度视觉流(Multi-Granularity Vision Flow):MG-LLaVA能够处理不同分辨率的图像,包括低分辨率和高分辨率,以及从图像中识别出的对象特征。
- 高分辨率视觉编码器:新增的编码器可以捕捉更细致的视觉细节,并通过Conv-Gate融合网络与基础视觉特征融合。
- 对象级特征:通过离线检测器识别出的边界框来获取对象级特征,增强了模型的物体识别能力。
- 指令调优训练:仅使用公开可用的多模态数据进行训练,展现出卓越的感知技能。
工作原理:
- 混合视觉编码器:MG-LLaVA使用两个不同分辨率的分支来处理图像,一个用于低分辨率,一个用于高分辨率。
- Conv-Gate融合:通过1D卷积对齐不同特征的通道宽度,然后使用门控层调节不同分辨率间的语义信息,实现特征的有效融合。
- 对象级特征集成:使用感兴趣区域(RoI)对齐从高分辨率编码器中提取对象级特征,并通过平均池化和特征投影器与文本嵌入对齐。
具体应用场景:
- 视觉问答(Visual Question Answering):MG-LLaVA能够理解图像内容并回答有关图像的问题。
- 视频理解(Video Understanding):模型可以扩展到视频领域,理解视频内容并回答相关问题。
- 多模态感知和认知:在需要同时理解图像和文本的场景中,如图像描述生成或文档图像的视觉问答。
0条评论