加州大学圣地亚哥分校、微软公司、加州大学圣巴巴拉分校的研究人员推出list items one by one,这是一种提高多模态大语言模型视觉理解能力的新方法,它通过在图像上添加带标签的标记(tags)来增强模型将视觉对象与文本标记关联的能力。例如,我们有一张包含笔记本电脑、椅子、显示器和台灯的办公室照片。使用SoM提示,我们可以在这些物品上放置标记,并让MLLM模型按照标记的数字顺序列举出这些物品。模型可能会生成这样的文本:“1. 笔记本电脑,2. 椅子,3. 显示器,4. 台灯。”这样,模型不仅学会了识别图像中的物体,还学会了将这些物体与特定的文本标记关联起来,从而提高了其多模态理解能力。
主要功能:
- 提升视觉理解:使模型能够更好地理解和描述图像中的视觉对象。
- 减少幻觉(hallucinations):在没有视觉标记的情况下,模型仍能保持高性能,表明训练过程中视觉标记的有效性。
主要特点:
- SoM(Set-of-Mark)提示:使用带数字或字母的标记来增强图像与文本之间的联系。
- 逐个列出项目的学习范式:要求模型按标记的顺序列举并描述图像上所有的视觉标记。
- 数据集的创建:通过Semantic-SAM生成标记,并利用GPT-4V生成对应的文本描述。
工作原理:
- 图像和视觉提示的准备:使用MS-COCO等开源图像数据集,并在图像上放置带有数字的标记。
- 文本数据生成:利用GPT-4V根据图像上的标记自动生成描述性文本。
- 模型训练:在预训练的MLLMs(如LLaVA-1.5)上继续训练,加入新创建的数据集,以学习SoM提示。
具体应用场景:
- GUI导航:在图形用户界面中,通过视觉标记指导模型进行更准确的导航。
- 机器人交互:在机器人视觉系统中,使用视觉标记来提高机器人对环境的理解。
- 视觉问答:在视觉问答任务中,通过视觉标记提高模型对问题的理解能力。
0条评论