SoM-LLaVA:提高多模态大语言模型视觉理解能力的新方法,它通过在图像上添加带标签的标记(tags)来增强模型将视觉对象与文本标记关联的能力

分类:大语言模型 | 热度:96 ℃

加州大学圣地亚哥分校、微软公司、加州大学圣巴巴拉分校的研究人员推出list items one by one,这是一种提高多模态大语言模型视觉理解能力的新方法,它通过在图像上添加带标签的标记(tags)来增强模型将视觉对象与文本标记关联的能力。例如,我们有一张包含笔记本电脑、椅子、显示器和台灯的办公室照片。使用SoM提示,我们可以在这些物品上放置标记,并让MLLM模型按照标记的数字顺序列举出这些物品。模型可能会生成这样的文本:“1. 笔记本电脑,2. 椅子,3. 显示器,4. 台灯。”这样,模型不仅学会了识别图像中的物体,还学会了将这些物体与特定的文本标记关联起来,从而提高了其多模态理解能力。

主要功能:

  • 提升视觉理解:使模型能够更好地理解和描述图像中的视觉对象。
  • 减少幻觉(hallucinations):在没有视觉标记的情况下,模型仍能保持高性能,表明训练过程中视觉标记的有效性。

主要特点:

  1. SoM(Set-of-Mark)提示:使用带数字或字母的标记来增强图像与文本之间的联系。
  2. 逐个列出项目的学习范式:要求模型按标记的顺序列举并描述图像上所有的视觉标记。
  3. 数据集的创建:通过Semantic-SAM生成标记,并利用GPT-4V生成对应的文本描述。

工作原理:

  1. 图像和视觉提示的准备:使用MS-COCO等开源图像数据集,并在图像上放置带有数字的标记。
  2. 文本数据生成:利用GPT-4V根据图像上的标记自动生成描述性文本。
  3. 模型训练:在预训练的MLLMs(如LLaVA-1.5)上继续训练,加入新创建的数据集,以学习SoM提示。

具体应用场景:

  • GUI导航:在图形用户界面中,通过视觉标记指导模型进行更准确的导航。
  • 机器人交互:在机器人视觉系统中,使用视觉标记来提高机器人对环境的理解。
  • 视觉问答:在视觉问答任务中,通过视觉标记提高模型对问题的理解能力。
声明: 猎游人 每天为你带来最新的游戏和硬件打折情报,帮你精心挑选值得玩的游戏,让您的钱花的更值!本站信息大部分来自于网友爆料,如果您发现了优质的游戏或好的价格,不妨爆料给我们吧(谢绝任何商业爆料)! 点此爆料

0条评论

Hi,您需要填写昵称和邮箱!
姓名 (必填)
邮箱 (必填)
网站

暂时木有评论