Adobe Research推出一种使用文生图模型进行高效概念驱动生成的方法,即个性化残差和基于局部注意力的引导采样

分类:AI绘画 | 热度:34 ℃

Adobe Research推出一种使用文本到图像扩散模型进行高效概念驱动生成的方法,即个性化残差和基于局部注意力的引导采样。它通过训练一个预设的文本条件扩散模型,学习模型部分层的小秩残差(low-rank residuals),来实现高效的概念驱动生成。简单来说,就是教会一个计算机程序,如何根据用户输入的文字描述(比如“一个穿着太阳镜的猫”),生成相应的图像。

首先,我们的方法通过冻结预训练的文本条件扩散模型的权重,并为模型中的一小部分层学习低秩残差来表示概念。随后,基于这种残差的方法直接支持我们提出的采样技术,该技术仅在概念定位的区域应用学习到的残差,通过交叉注意力实现,并在图像的其他所有区域使用原始的扩散权重。因此,局部采样结合了概念的学习特征与基础扩散模型的现有生成先验。我们证明,个性化残差在单个GPU上仅需约3分钟即可有效捕获概念特征,无需使用正则化图像,且参数数量少于先前模型。同时,局部采样允许将原始模型作为图像大部分区域的强大先验。

例如,你告诉这个系统“我需要一张复古风格的猫的图片”,系统就会利用它学到的关于“复古风格”和“猫”的知识,生成一张具有这些特征的图片。这个过程既快速又不需要大量的计算资源,使得个性化图像生成变得更加可行和高效。

主要功能

  • 根据文本描述生成图像。
  • 个性化定制,即能够生成特定概念的图像,如特定的物体、风格或场景。

主要特点

  1. 效率:使用小秩残差方法,只需要训练模型的一小部分参数,从而加快了训练速度。
  2. 灵活性:不依赖于正则化图像(一种用于保持模型原有功能的图像),简化了训练过程。
  3. 参数少:相比于其他模型,该方法使用的参数更少。
  4. 快速训练:在单个GPU上大约3分钟内即可完成概念的身份捕捉。

工作原理

  1. 预训练模型:首先使用一个预训练的文本条件扩散模型,这个模型能够根据文本生成图像。
  2. 冻结权重:将模型的大部分权重冻结,即不对其进行修改。
  3. 学习残差:对于模型中一小部分层,学习它们的低秩残差,这些残差代表了新概念的特征。
  4. 局部化采样:通过注意力机制确定概念在图像中的定位,并将学习到的残差仅应用于这些区域,而其他区域则使用原始模型生成。

具体应用场景

  1. 艺术创作:帮助艺术家根据文本描述快速生成图像概念。
  2. 游戏开发:在游戏设计中,根据文本描述生成环境或角色图像。
  3. 广告设计:根据广告文案快速生成吸引人的视觉图像。
  4. 社交媒体:用户可以输入描述,生成个性化的图像用于社交媒体分享。
声明: 猎游人 每天为你带来最新的游戏和硬件打折情报,帮你精心挑选值得玩的游戏,让您的钱花的更值!本站信息大部分来自于网友爆料,如果您发现了优质的游戏或好的价格,不妨爆料给我们吧(谢绝任何商业爆料)! 点此爆料

0条评论

Hi,您需要填写昵称和邮箱!
姓名 (必填)
邮箱 (必填)
网站

暂时木有评论