当前位置：首页 > 优惠 >AI视频>文章详情

新模型MaskVAT：根据无声视频生成与之匹配的音频

推荐人：暴走AI| 商城: AI | 1年前 (2024-07-17)| 分类：AI视频 | 热度：197 ℃

已关闭评论

杜比实验室和加泰罗尼亚理工大学的研究人员推出新模型MaskVAT（Masked Generative Video-to-Audio Transformers），它能够根据无声视频生成与之匹配的音频。简单来说，就是让计算机“看”一段没有声音的视频，然后“想象”出视频中应有的声音，比如人的对话声、环境声等。在一些具体的实验和评估，例如在VGGSound数据集上训练模型，并在MUSIC数据集上测试其在音乐合成领域的性能。这些实验结果表明，MaskVAT在生成高质量音频、语义匹配和时间同步性方面都表现出色。

项目主页：https://maskvat.github.io
论文：https://arxiv.org/abs/2407.10387

例如，你正在制作一部科幻电影，电影中有一个场景是机器人在工厂中工作。你已经有了机器人工作的视频，但没有声音。使用MaskVAT，你可以生成机器人移动和操作机器的声音，使得视频更加逼真。系统会分析视频中的机器人动作，然后生成相应的机械声和脚步声，确保声音与视频动作完美同步。

主要功能和特点：

高质量音频生成：MaskVAT利用先进的全频段通用音频编解码器，确保生成的音频具有高质量。
语义匹配：模型能够理解视频内容，并生成与视频场景语义匹配的声音。
时间同步性：生成的音频与视频在时间上高度同步，即视频中的动作与声音的开始时间相匹配，避免了不自然的声音延迟或提前。
多模态特征驱动：模型结合了预训练的语义和同步性特征，通过序列到序列的掩码生成方法来驱动视频到音频的生成。

工作原理：

音频分词器（Audio Tokenizer）：使用预训练的神经音频编解码器（如DAC）将原始音频波形转换为低帧率的编码序列，这有助于在生成过程中保持音频质量。
掩码生成视频到音频转换器（Masked Generative Video-to-Audio Transformer）：采用Transformer架构，预测音频的编码序列。模型使用掩码生成策略，通过预测被掩码的部分来生成音频。
视觉条件：模型使用预训练的CLIP图像编码器和3D卷积视频编码器（如S3D）来提取视频特征，并将这些特征作为条件输入到生成模型中。
训练和采样：在训练阶段，模型通过最小化掩码位置的负对数似然来学习生成音频。在采样阶段，模型从完全掩码的实例开始，逐步预测每个位置的音频编码，直到生成完整的音频序列。