CLoVe:提高现有的视觉-语言模型(VLMs)在处理组合语言时的能力

分类:大语言模型 | 热度:147 ℃

密歇根大学安娜堡分校、Netflix的研究人员发布论文介绍了一个名为CLoVe(Contrastive Language-Image Vision Models)的框架,旨在提高现有的视觉-语言模型(VLMs)在处理组合语言时的能力。VLMs,如CLIP模型,通常在识别图像中的对象方面表现出色,但在理解文本中单词顺序变化带来的意义变化方面存在不足。例如,CLIP在ImageNet这样的图像识别任务上表现很好,但在需要理解复杂场景的组合性任务上却表现不佳。

论文地址:https://arxiv.org/abs/2402.15021

GitHub:https://github.com/netflix/clove

主要功能和特点包括:

  1. 组合语言编码能力提升:CLoVe框架能够在保持或提高标准对象识别和检索任务性能的同时,显著提高模型在组合性语言任务上的表现,例如在SugarCrepe组合性基准测试中实现了超过10%的绝对提升。
  2. 数据策划和硬负例训练:CLoVe通过使用合成的图像描述数据集(如LAION-COCO)和在训练中加入硬负例文本,来增强模型的组合语言处理能力。
  3. 模型修补技术:CLoVe采用模型修补技术,结合预训练模型和经过特定任务微调的模型,以保持在原有任务上的性能。

工作原理:

  • 合成图像描述:CLoVe利用大规模的合成图像描述数据集,这些数据集提供了高质量的文本描述,有助于模型更好地理解图像内容。
  • 硬负例训练:在训练过程中,CLoVe通过生成与正确描述在单词使用上相同但顺序不同的硬负例文本,迫使模型学习单词在不同上下文中的不同含义。
  • 模型修补:通过在预训练模型和微调模型之间进行权重平均,CLoVe能够在提升组合语言处理能力的同时,保持模型在其他任务上的性能。

具体应用场景:

  • 图像和文本理解:CLoVe可以应用于需要理解图像内容并生成或理解复杂文本描述的场景,如图像搜索、图像描述生成等。
  • 视觉问答系统:在视觉问答系统中,CLoVe可以帮助模型更好地理解问题中的组合语言,并提供准确的答案。
  • 内容创作和编辑:在内容创作和编辑领域,CLoVe可以辅助生成或编辑与图像内容相匹配的复杂文本描述。

总的来说,CLoVe框架通过改进数据集、训练策略和模型结构,显著提升了VLMs在处理组合语言任务上的能力,同时保持了在其他视觉-语言任务上的性能。

声明: 猎游人 每天为你带来最新的游戏和硬件打折情报,帮你精心挑选值得玩的游戏,让您的钱花的更值!本站信息大部分来自于网友爆料,如果您发现了优质的游戏或好的价格,不妨爆料给我们吧(谢绝任何商业爆料)! 点此爆料

0条评论

Hi,您需要填写昵称和邮箱!
姓名 (必填)
邮箱 (必填)
网站

暂时木有评论