Adobe Research推出一种使用文本到图像扩散模型进行高效概念驱动生成的方法,即个性化残差和基于局部注意力的引导采样。它通过训练一个预设的文本条件扩散模型,学习模型部分层的小秩残差(low-rank residuals),来实现高效的概念驱动生成。简单来说,就是教会一个计算机程序,如何根据用户输入的文字描述(比如“一个穿着太阳镜的猫”),生成相应的图像。
首先,我们的方法通过冻结预训练的文本条件扩散模型的权重,并为模型中的一小部分层学习低秩残差来表示概念。随后,基于这种残差的方法直接支持我们提出的采样技术,该技术仅在概念定位的区域应用学习到的残差,通过交叉注意力实现,并在图像的其他所有区域使用原始的扩散权重。因此,局部采样结合了概念的学习特征与基础扩散模型的现有生成先验。我们证明,个性化残差在单个GPU上仅需约3分钟即可有效捕获概念特征,无需使用正则化图像,且参数数量少于先前模型。同时,局部采样允许将原始模型作为图像大部分区域的强大先验。
例如,你告诉这个系统“我需要一张复古风格的猫的图片”,系统就会利用它学到的关于“复古风格”和“猫”的知识,生成一张具有这些特征的图片。这个过程既快速又不需要大量的计算资源,使得个性化图像生成变得更加可行和高效。
主要功能:
- 根据文本描述生成图像。
- 个性化定制,即能够生成特定概念的图像,如特定的物体、风格或场景。
主要特点:
- 效率:使用小秩残差方法,只需要训练模型的一小部分参数,从而加快了训练速度。
- 灵活性:不依赖于正则化图像(一种用于保持模型原有功能的图像),简化了训练过程。
- 参数少:相比于其他模型,该方法使用的参数更少。
- 快速训练:在单个GPU上大约3分钟内即可完成概念的身份捕捉。
工作原理:
- 预训练模型:首先使用一个预训练的文本条件扩散模型,这个模型能够根据文本生成图像。
- 冻结权重:将模型的大部分权重冻结,即不对其进行修改。
- 学习残差:对于模型中一小部分层,学习它们的低秩残差,这些残差代表了新概念的特征。
- 局部化采样:通过注意力机制确定概念在图像中的定位,并将学习到的残差仅应用于这些区域,而其他区域则使用原始模型生成。
具体应用场景:
- 艺术创作:帮助艺术家根据文本描述快速生成图像概念。
- 游戏开发:在游戏设计中,根据文本描述生成环境或角色图像。
- 广告设计:根据广告文案快速生成吸引人的视觉图像。
- 社交媒体:用户可以输入描述,生成个性化的图像用于社交媒体分享。
0条评论