阿里推出新型多模态大语言模型Ovis

分类:大语言模型 | 热度:125 ℃

阿里巴巴集团人工智能业务、南京大学人工智能学院、南京大学计算机软件新技术国家重点实验室的研究人员推出新型多模态大语言模型Ovis。多模态意味着这个模型能够同时处理和理解文本和视觉信息,比如图片。你可以把它想象成一个能够“看图说话”的智能系统。

主要功能:

  1. 结构化嵌入对齐:Ovis通过一种特别的方法,让模型在处理图片和文本时使用类似的结构化嵌入方式,这就像是给视觉信息和文本信息都贴上了易于理解的标签,使得它们能够更好地融合和交流。
  2. 多模态学习:它能够学习图片和文本之间的关系,从而更好地理解和生成描述图片内容的文本。

主要特点:

  1. 视觉嵌入表:Ovis引入了一个视觉嵌入表,这就像是给每个视觉元素(比如图片中的一个部分)一个特定的“身份证”,以便模型能够识别和使用这些元素。
  2. 概率化的视觉嵌入:模型会计算每个视觉元素与嵌入表中各个“身份证”的相似度,形成一个概率分布,这增加了模型处理视觉信息的灵活性。

工作原理:

Ovis首先将图片分割成多个小块,称为“视觉补丁”。然后,它为每个视觉补丁分配一个概率分布,这个分布表明了该补丁与嵌入表中各个视觉词的相似度。通过这种方式,每个视觉补丁可以与嵌入表中的多个视觉词相关联,形成一个综合的视觉嵌入。这类似于文本处理中的嵌入查找,但用于视觉信息。

具体应用场景:

  1. 图像描述:给定一张图片,Ovis能够生成描述这张图片内容的文本。
  2. 视觉问答:用户可以问模型关于图片的问题,比如“图片中有多少人在骑自行车?”Ovis能够理解问题并给出答案。
  3. 多模态交互:在需要同时理解文本和视觉信息的场景中,比如帮助视障人士理解图片内容,或者在教育中提供图文结合的学习材料。

总的来说,Ovis通过其创新的结构化嵌入对齐和视觉嵌入表,提高了模型处理和生成多模态内容的能力,使得机器更好地理解和生成与视觉信息相关的文本,从而在多种应用场景中发挥作用。

声明: 猎游人 每天为你带来最新的游戏和硬件打折情报,帮你精心挑选值得玩的游戏,让您的钱花的更值!本站信息大部分来自于网友爆料,如果您发现了优质的游戏或好的价格,不妨爆料给我们吧(谢绝任何商业爆料)! 点此爆料

0条评论

Hi,您需要填写昵称和邮箱!
姓名 (必填)
邮箱 (必填)
网站

暂时木有评论