新技术框架ReSyncer:用于创建统一的音频-视觉同步的面部表演者的系统

分类:AI视频 | 热度:117 ℃

清华大学、百度公司、中关村实验室和南洋理工大学的研究人员推出新技术框架ReSyncer,它是一个用于创建统一的音频-视觉同步的面部表演者的系统。简单来说,ReSyncer能够根据给定的音频生成口型同步的视频,并且能够进一步传递目标人物的说话风格和身份特征。ReSyncer在不同方面的性能,包括与现有技术的比较、定量和定性评估,以及在特定条件下的潜在应用和优势。此外,作者还强调了在创建这类技术时需要考虑的伦理问题,比如防止技术被滥用来制作虚假视频内容。

  • 项目主页:https://guanjz20.github.io/projects/ReSyncer

例如,你正在制作一个视频,需要一个虚拟角色来朗读一段台词。使用ReSyncer,你只需提供角色的面部模板和音频文件,系统就能生成一个视频,其中虚拟角色的口型与音频完全同步,甚至还能传递出朗读者独特的说话风格。如果需要,你还可以将这个角色的面部特征应用到另一个视频中的人物上,同时保持原有的唇形同步效果。

主要功能和特点:

  1. 高保真度的唇形同步:ReSyncer可以生成与音频高度同步的唇部动作视频。
  2. 说话风格和身份的传递:它不仅能复制口型,还能传递说话者的风格和身份,使得生成的视频更具有个性化特征。
  3. 快速个性化微调:ReSyncer支持快速的个性化调整,以便更好地适应特定人物的面部特征和说话风格。
  4. 视频驱动的唇形同步:该框架可以根据视频内容自动进行唇形同步,无需额外的训练。
  5. 面部交换:ReSyncer还能够实现面部交换,即把一个人的面部特征应用到另一个人的视频上,同时保持唇形同步。

工作原理:

ReSyncer框架包含两个主要阶段:

  1. 风格注入的唇形同步变换器(Style-SyncFormer):这一阶段使用Transformer网络来预测3D人脸动态,它接受音频特征并预测对应的3D人脸网格变化。
  2. 重构的Style-based生成器:在第二阶段,通过将预测的3D人脸网格与目标帧相结合,生成器能够生成高保真的面部帧。这一过程中,生成器利用简单的编码器和之前工作中使用的Style-based生成器架构。

具体应用场景:

  1. 虚拟主持人或表演者:在电影、电视和网络直播等领域,ReSyncer可以用来创建逼真的虚拟角色。
  2. 语言学习应用:可以生成特定语言的发音视频,帮助学习者学习正确的发音和口型。
  3. 视频内容创作:视频制作者可以使用ReSyncer来快速生成或修改视频中人物的说话部分,提高制作效率。
声明: 猎游人 每天为你带来最新的游戏和硬件打折情报,帮你精心挑选值得玩的游戏,让您的钱花的更值!本站信息大部分来自于网友爆料,如果您发现了优质的游戏或好的价格,不妨爆料给我们吧(谢绝任何商业爆料)! 点此爆料

0条评论

Hi,您需要填写昵称和邮箱!
姓名 (必填)
邮箱 (必填)
网站

暂时木有评论