清华大学、百度公司、中关村实验室和南洋理工大学的研究人员推出新技术框架ReSyncer,它是一个用于创建统一的音频-视觉同步的面部表演者的系统。简单来说,ReSyncer能够根据给定的音频生成口型同步的视频,并且能够进一步传递目标人物的说话风格和身份特征。ReSyncer在不同方面的性能,包括与现有技术的比较、定量和定性评估,以及在特定条件下的潜在应用和优势。此外,作者还强调了在创建这类技术时需要考虑的伦理问题,比如防止技术被滥用来制作虚假视频内容。
- 项目主页:https://guanjz20.github.io/projects/ReSyncer
例如,你正在制作一个视频,需要一个虚拟角色来朗读一段台词。使用ReSyncer,你只需提供角色的面部模板和音频文件,系统就能生成一个视频,其中虚拟角色的口型与音频完全同步,甚至还能传递出朗读者独特的说话风格。如果需要,你还可以将这个角色的面部特征应用到另一个视频中的人物上,同时保持原有的唇形同步效果。
主要功能和特点:
- 高保真度的唇形同步:ReSyncer可以生成与音频高度同步的唇部动作视频。
- 说话风格和身份的传递:它不仅能复制口型,还能传递说话者的风格和身份,使得生成的视频更具有个性化特征。
- 快速个性化微调:ReSyncer支持快速的个性化调整,以便更好地适应特定人物的面部特征和说话风格。
- 视频驱动的唇形同步:该框架可以根据视频内容自动进行唇形同步,无需额外的训练。
- 面部交换:ReSyncer还能够实现面部交换,即把一个人的面部特征应用到另一个人的视频上,同时保持唇形同步。
工作原理:
ReSyncer框架包含两个主要阶段:
- 风格注入的唇形同步变换器(Style-SyncFormer):这一阶段使用Transformer网络来预测3D人脸动态,它接受音频特征并预测对应的3D人脸网格变化。
- 重构的Style-based生成器:在第二阶段,通过将预测的3D人脸网格与目标帧相结合,生成器能够生成高保真的面部帧。这一过程中,生成器利用简单的编码器和之前工作中使用的Style-based生成器架构。
具体应用场景:
- 虚拟主持人或表演者:在电影、电视和网络直播等领域,ReSyncer可以用来创建逼真的虚拟角色。
- 语言学习应用:可以生成特定语言的发音视频,帮助学习者学习正确的发音和口型。
- 视频内容创作:视频制作者可以使用ReSyncer来快速生成或修改视频中人物的说话部分,提高制作效率。
0条评论