韩国科学院推出新型大型语言和视觉模型Phantom,它旨在通过一种高效的学习方式,在不显著增加模型大小的前提下,增强模型对视觉和语言知识的学习能力。例如,你是一名教师,需要向学生解释一个复杂的科学概念,你可以上传一个相关的图表并给出描述,Phantom能够生成一个详细的图像,帮助学生更好地理解这个概念。或者,如果你是一名设计师,需要将客户的文本描述转换成具体的图像设计,Phantom可以帮助你快速生成设计草图
- GitHub:https://github.com/ByungKwanLee/Phantom
- 模型:https://huggingface.co/collections/BK-Lee/phantom-66f1368c1f47e626066263c0
主要功能:
- 图像到图像的转换:根据文本指令将一张图像转换成另一张图像,例如将草图转换成详细的图画。
- 图像生成:根据文本描述生成图像。
- 图像编辑:根据自然语言指令对图像进行编辑,如添加、删除或替换图像中的元素。
- 图像恢复:修复受损或质量差的图像,如去除噪声或模糊。
主要特点:
- 幻影维度(Phantom Dimension):在多头自注意力(MHSA)过程中临时增加潜在隐藏维度,以增强模型的视觉语言学习能力。
- 幻影优化(Phantom Optimization, PO):结合自回归监督微调(SFT)和直接偏好优化(DPO)的概念,优化模型生成正确答案的能力,同时减少错误和模糊答案的产生。
工作原理:
- 数据增强:通过GPT-4o-mini生成不正确和模糊的答案,再通过人工审核筛选,形成用于训练的样本集。
- 模型架构:使用InternViT-300M作为视觉编码器,并通过两个全连接层构建视觉投影器。
- 幻影维度实现:在MHSA层中,通过额外的线性变换模块扩展查询(Q)、键(K)和值(V)的维度,以嵌入更多的视觉语言知识。
- 幻影优化实施:在模型训练的第一步中,使用PO策略专注于视觉和语言的对齐,然后在第二步中解冻所有参数并一起训练。
具体应用场景:
- 智能家居:用户可以通过语音指令让智能家居设备显示或编辑图像。
- 社交媒体:用户可以上传图片并添加描述,Phantom根据描述生成新的图片版本。
- 教育:在教学中,可以根据教科书中的图表自动生成详细的解释图像,帮助学生理解复杂概念。
- 辅助设计:设计师可以给出文本描述,Phantom生成设计草图或概念图。
0条评论