杜比实验室和加泰罗尼亚理工大学的研究人员推出新模型MaskVAT(Masked Generative Video-to-Audio Transformers),它能够根据无声视频生成与之匹配的音频。简单来说,就是让计算机“看”一段没有声音的视频,然后“想象”出视频中应有的声音,比如人的对话声、环境声等。在一些具体的实验和评估,例如在VGGSound数据集上训练模型,并在MUSIC数据集上测试其在音乐合成领域的性能。这些实验结果表明,MaskVAT在生成高质量音频、语义匹配和时间同步性方面都表现出色。
- 项目主页:https://maskvat.github.io
- 论文:https://arxiv.org/abs/2407.10387
例如,你正在制作一部科幻电影,电影中有一个场景是机器人在工厂中工作。你已经有了机器人工作的视频,但没有声音。使用MaskVAT,你可以生成机器人移动和操作机器的声音,使得视频更加逼真。系统会分析视频中的机器人动作,然后生成相应的机械声和脚步声,确保声音与视频动作完美同步。
主要功能和特点:
- 高质量音频生成:MaskVAT利用先进的全频段通用音频编解码器,确保生成的音频具有高质量。
- 语义匹配:模型能够理解视频内容,并生成与视频场景语义匹配的声音。
- 时间同步性:生成的音频与视频在时间上高度同步,即视频中的动作与声音的开始时间相匹配,避免了不自然的声音延迟或提前。
- 多模态特征驱动:模型结合了预训练的语义和同步性特征,通过序列到序列的掩码生成方法来驱动视频到音频的生成。
工作原理:
- 音频分词器(Audio Tokenizer):使用预训练的神经音频编解码器(如DAC)将原始音频波形转换为低帧率的编码序列,这有助于在生成过程中保持音频质量。
- 掩码生成视频到音频转换器(Masked Generative Video-to-Audio Transformer):采用Transformer架构,预测音频的编码序列。模型使用掩码生成策略,通过预测被掩码的部分来生成音频。
- 视觉条件:模型使用预训练的CLIP图像编码器和3D卷积视频编码器(如S3D)来提取视频特征,并将这些特征作为条件输入到生成模型中。
- 训练和采样:在训练阶段,模型通过最小化掩码位置的负对数似然来学习生成音频。在采样阶段,模型从完全掩码的实例开始,逐步预测每个位置的音频编码,直到生成完整的音频序列。
具体应用场景:
- 媒体制作:在电影、电视和游戏制作中,MaskVAT可以用于生成或增强背景音效,提高制作效率。
- 自动配音:在需要自动生成角色配音的场景中,MaskVAT可以根据角色的动作和场景生成匹配的语音。
- 虚拟现实:在虚拟现实环境中,MaskVAT可以为虚拟角色生成逼真的声音,提升沉浸感。
- 音乐生成:在音乐创作中,MaskVAT可以根据音乐视频生成匹配的音乐伴奏。
0条评论