韩国科学院推出新型大型语言和视觉模型Phantom:通过一种高效的学习方式,在不显著增加模型大小的前提下,增强模型对视觉和语言知识的学习能力

分类:大语言模型 | 热度:127 ℃

韩国科学院推出新型大型语言和视觉模型Phantom,它旨在通过一种高效的学习方式,在不显著增加模型大小的前提下,增强模型对视觉和语言知识的学习能力。例如,你是一名教师,需要向学生解释一个复杂的科学概念,你可以上传一个相关的图表并给出描述,Phantom能够生成一个详细的图像,帮助学生更好地理解这个概念。或者,如果你是一名设计师,需要将客户的文本描述转换成具体的图像设计,Phantom可以帮助你快速生成设计草图

  • GitHub:https://github.com/ByungKwanLee/Phantom
  • 模型:https://huggingface.co/collections/BK-Lee/phantom-66f1368c1f47e626066263c0

主要功能

  1. 图像到图像的转换:根据文本指令将一张图像转换成另一张图像,例如将草图转换成详细的图画。
  2. 图像生成:根据文本描述生成图像。
  3. 图像编辑:根据自然语言指令对图像进行编辑,如添加、删除或替换图像中的元素。
  4. 图像恢复:修复受损或质量差的图像,如去除噪声或模糊。

主要特点

  1. 幻影维度(Phantom Dimension):在多头自注意力(MHSA)过程中临时增加潜在隐藏维度,以增强模型的视觉语言学习能力。
  2. 幻影优化(Phantom Optimization, PO):结合自回归监督微调(SFT)和直接偏好优化(DPO)的概念,优化模型生成正确答案的能力,同时减少错误和模糊答案的产生。

工作原理

  1. 数据增强:通过GPT-4o-mini生成不正确和模糊的答案,再通过人工审核筛选,形成用于训练的样本集。
  2. 模型架构:使用InternViT-300M作为视觉编码器,并通过两个全连接层构建视觉投影器。
  3. 幻影维度实现:在MHSA层中,通过额外的线性变换模块扩展查询(Q)、键(K)和值(V)的维度,以嵌入更多的视觉语言知识。
  4. 幻影优化实施:在模型训练的第一步中,使用PO策略专注于视觉和语言的对齐,然后在第二步中解冻所有参数并一起训练。

具体应用场景

  1. 智能家居:用户可以通过语音指令让智能家居设备显示或编辑图像。
  2. 社交媒体:用户可以上传图片并添加描述,Phantom根据描述生成新的图片版本。
  3. 教育:在教学中,可以根据教科书中的图表自动生成详细的解释图像,帮助学生理解复杂概念。
  4. 辅助设计:设计师可以给出文本描述,Phantom生成设计草图或概念图。

声明: 猎游人 每天为你带来最新的游戏和硬件打折情报,帮你精心挑选值得玩的游戏,让您的钱花的更值!本站信息大部分来自于网友爆料,如果您发现了优质的游戏或好的价格,不妨爆料给我们吧(谢绝任何商业爆料)! 点此爆料

0条评论

Hi,您需要填写昵称和邮箱!
姓名 (必填)
邮箱 (必填)
网站

暂时木有评论