当前位置：首页 > 优惠 >大语言模型>文章详情

新型多模态大语言模型MG-LLaVA

推荐人：暴走AI| 商城: AI | 1年前 (2024-06-29)| 分类：大语言模型 | 热度：246 ℃

已关闭评论

上海交通大学、上海人工智能实验室和南洋理工大学的研究人员推出新型多模态大语言模型MG-LLaVA，它在视觉理解任务上取得了显著的进步。例如，你有一个能够“看”图片和“读”文字的智能助手，但以前的这种助手只能处理低分辨率的图片，这限制了它们理解细节的能力。MG-LLaVA通过增加多粒度视觉处理能力，比如低分辨率、高分辨率和以对象为中心的特征，来克服这个限制。实验结果表明，MG-LLaVA在多个基准测试中超越了参数规模相当的现有MLLMs，显示出其卓越的效能。

项目主页：https://phoenixz810.github.io/MGLLaVA
GitHub：https://github.com/PhoenixZ810/MG-LLaVA

主要功能和特点：

多粒度视觉流（Multi-Granularity Vision Flow）：MG-LLaVA能够处理不同分辨率的图像，包括低分辨率和高分辨率，以及从图像中识别出的对象特征。
高分辨率视觉编码器：新增的编码器可以捕捉更细致的视觉细节，并通过Conv-Gate融合网络与基础视觉特征融合。
对象级特征：通过离线检测器识别出的边界框来获取对象级特征，增强了模型的物体识别能力。
指令调优训练：仅使用公开可用的多模态数据进行训练，展现出卓越的感知技能。