当前位置：首页 > 优惠 >AI视频>文章详情

新技术框架ReSyncer：用于创建统一的音频-视觉同步的面部表演者的系统

推荐人：暴走AI| 商城: AI | 9个月前 (08-07)| 分类：AI视频 | 热度：276 ℃

已关闭评论

清华大学、百度公司、中关村实验室和南洋理工大学的研究人员推出新技术框架ReSyncer，它是一个用于创建统一的音频-视觉同步的面部表演者的系统。简单来说，ReSyncer能够根据给定的音频生成口型同步的视频，并且能够进一步传递目标人物的说话风格和身份特征。ReSyncer在不同方面的性能，包括与现有技术的比较、定量和定性评估，以及在特定条件下的潜在应用和优势。此外，作者还强调了在创建这类技术时需要考虑的伦理问题，比如防止技术被滥用来制作虚假视频内容。

项目主页：https://guanjz20.github.io/projects/ReSyncer

例如，你正在制作一个视频，需要一个虚拟角色来朗读一段台词。使用ReSyncer，你只需提供角色的面部模板和音频文件，系统就能生成一个视频，其中虚拟角色的口型与音频完全同步，甚至还能传递出朗读者独特的说话风格。如果需要，你还可以将这个角色的面部特征应用到另一个视频中的人物上，同时保持原有的唇形同步效果。

主要功能和特点：

高保真度的唇形同步：ReSyncer可以生成与音频高度同步的唇部动作视频。
说话风格和身份的传递：它不仅能复制口型，还能传递说话者的风格和身份，使得生成的视频更具有个性化特征。
快速个性化微调：ReSyncer支持快速的个性化调整，以便更好地适应特定人物的面部特征和说话风格。
视频驱动的唇形同步：该框架可以根据视频内容自动进行唇形同步，无需额外的训练。
面部交换：ReSyncer还能够实现面部交换，即把一个人的面部特征应用到另一个人的视频上，同时保持唇形同步。

工作原理：

ReSyncer框架包含两个主要阶段：

风格注入的唇形同步变换器（Style-SyncFormer）：这一阶段使用Transformer网络来预测3D人脸动态，它接受音频特征并预测对应的3D人脸网格变化。
重构的Style-based生成器：在第二阶段，通过将预测的3D人脸网格与目标帧相结合，生成器能够生成高保真的面部帧。这一过程中，生成器利用简单的编码器和之前工作中使用的Style-based生成器架构。