北京大学的研究人员推出类似阿里的Emo和微软的VASA-1的文本引导的2D头像生成框架InstructAvatar,它能够根据自然语言指令来控制头像的表情和动作。简单来说,InstructAvatar就像是一个虚拟的“演员”,可以根据你给它的文本提示,展现出各种细腻的表情和动作。
例如,你正在制作一个视频游戏,需要一个能够根据玩家指令做出反应的虚拟角色。你可以使用InstructAvatar,通过文本指令如“请表现出惊讶的表情”或“用愉快的情绪说话”,来控制这个角色的面部表情和说话方式。这样,角色就能够以更加自然和逼真的方式与玩家互动。
主要功能:
- 文本引导的表情和动作控制:用户可以通过文本指令来精细控制头像的情绪表达和面部动作。
- 高保真度:生成的头像视频在表情控制、唇形同步质量和自然度方面表现出色。
- 交互性和通用性:提供了改进的交互性和对各种视频结果的通用性。
主要特点:
- 自然语言接口:InstructAvatar使用自然语言作为接口,使得控制头像变得更加直观和自然。
- 细粒度控制:与以往方法相比,InstructAvatar能够提供更细致的表情和动作控制。
- 改进的泛化能力:该框架不仅在训练数据上表现良好,还能很好地泛化到新的、未见过的情境。
工作原理:
- 自动注释管道:通过自动注释管道构建指令-视频配对的训练数据集。
- 双分支扩散模型:设计了一个新颖的两分支扩散模型,同时预测音频和文本指令的头像。
- 文本引导的动作生成器:利用CLIP文本编码器和交叉注意力机制,将文本指令信息注入到去噪过程中。
- 零卷积机制:为了稳定训练并利用预训练模型的知识,引入了零卷积机制作为文本条件的门控。
具体应用场景:
- 影视制作:在电影或电视剧中生成逼真的角色头像。
- 游戏开发:为游戏中的非玩家角色(NPC)生成自然的表情和动作。
- 视频会议:生成发言人的虚拟形象,用于远程交流。
- 虚拟现实:在虚拟现实环境中生成具有丰富表情的虚拟角色。
0条评论