当前位置：首页 > 优惠 >大语言模型>文章详情

个性化视觉语言模型MyVLM：让预训练的VLM能够理解和处理用户特定的概念

推荐人：暴走AI| 商城: AI | 1年前 (2024-03-22)| 分类：大语言模型 | 热度：285 ℃

已关闭评论

来自特拉维夫大学和SNAP的研究人员推出MyVLM，这是一种个性化视觉语言模型（Vision-Language Model，简称VLM）。MyVLM的目标是让预训练的VLM能够理解和处理用户特定的概念，例如识别图片中的特定人物或物品，并在生成文本描述时包含这些个性化信息。例如，如果你有一张包含你朋友的照片，并想知道你的朋友在照片中做了什么，你可以使用MyVLM来生成描述，它会识别出你的朋友，并告诉你他们在照片中正在做什么。这个过程只需要你提供几张包含你朋友的照片，MyVLM就能学会识别你的朋友，并在未来的任何照片中识别出他们。

主要功能和特点：

个性化理解： MyVLM能够识别和理解用户特定的概念，如“你的朋友”或“你的宠物狗”。
保持通用性： 即使在添加个性化概念后，MyVLM仍然保持对非个性化输入的处理能力。
少量样本学习： 只需要很少数的图片（大约3-5张），MyVLM就能学会识别新的个性化概念。

工作原理： MyVLM通过在现有的VLM中添加额外的“概念头”（concept heads）来识别用户特定的概念。这些概念头可以是专门为特定任务训练的分类器，例如使用预训练的人脸识别网络来识别特定的人。一旦识别出概念，MyVLM会学习一个概念嵌入（concept embedding），这是一个向量，用于在模型的中间特征空间中表示概念。这个嵌入向量会引导语言模型在生成描述时自然地整合目标概念。

具体应用场景：