当前位置：首页 > 优惠 >大语言模型>文章详情

韩国科学院推出新型大型语言和视觉模型Phantom：通过一种高效的学习方式，在不显著增加模型大小的前提下，增强模型对视觉和语言知识的学习能力

推荐人：暴走AI| 商城: AI | 7个月前 (09-24)| 分类：大语言模型 | 热度：356 ℃

已关闭评论

韩国科学院推出新型大型语言和视觉模型Phantom：通过一种高效的学习方式，在不显著增加模型大小的前提下，增强模型对视觉和语言知识的学习能力

韩国科学院推出新型大型语言和视觉模型Phantom，它旨在通过一种高效的学习方式，在不显著增加模型大小的前提下，增强模型对视觉和语言知识的学习能力。例如，你是一名教师，需要向学生解释一个复杂的科学概念，你可以上传一个相关的图表并给出描述，Phantom能够生成一个详细的图像，帮助学生更好地理解这个概念。或者，如果你是一名设计师，需要将客户的文本描述转换成具体的图像设计，Phantom可以帮助你快速生成设计草图

GitHub：https://github.com/ByungKwanLee/Phantom
模型：https://huggingface.co/collections/BK-Lee/phantom-66f1368c1f47e626066263c0

主要功能：

图像到图像的转换：根据文本指令将一张图像转换成另一张图像，例如将草图转换成详细的图画。
图像生成：根据文本描述生成图像。
图像编辑：根据自然语言指令对图像进行编辑，如添加、删除或替换图像中的元素。
图像恢复：修复受损或质量差的图像，如去除噪声或模糊。

主要特点：

幻影维度（Phantom Dimension）：在多头自注意力（MHSA）过程中临时增加潜在隐藏维度，以增强模型的视觉语言学习能力。
幻影优化（Phantom Optimization, PO）：结合自回归监督微调（SFT）和直接偏好优化（DPO）的概念，优化模型生成正确答案的能力，同时减少错误和模糊答案的产生。

工作原理：