当前位置：首页 > 优惠 >AI音频>文章详情

VMAS框架：能够从视频输入中学习生成背景音乐

推荐人：暴走AI| 商城: AI | 10个月前 (09-12)| 分类：AI音频 | 热度：155 ℃

已关闭评论

北卡罗来纳大学教堂山分校计算机科学系和字节跳动的研究人员推出VMAS框架，它能够从视频输入中学习生成背景音乐。与以往依赖于符号音乐注释（如 MIDI 文件）的方法不同，VMAS 利用了大规模的网络视频和伴随的背景音乐，使模型能够学习生成真实且多样化的音乐。

项目主页：https://genjib.github.io/project_page/VMAs/index.html

我们提出了一种从视频输入中学习生成背景音乐的框架。不同于依赖于数量和多样性有限的符号音乐注释的现有工作，我们的方法利用了带有背景音乐的大规模网络视频。这使得我们的模型能够学会生成逼真且多样化的音乐。为了实现这一目标，我们开发了一种具有新颖语义视频-音乐对齐方案的生成视频-音乐Transformer。我们的模型采用了一种联合自回归和对比学习的目标函数，这促进了与高层视频内容相一致的音乐生成。我们还引入了一种新颖的视频-节拍对齐方案，以匹配生成的音乐节拍与视频中的底层运动。最后，为了捕捉视频中用于生成逼真背景音乐所需的细粒度视觉线索，我们引入了一种新的时间视频编码器架构，使我们能够高效地处理包含大量密集采样帧的视频。我们在新整理的DISCO-MV数据集上训练了我们的框架，该数据集包含220万个视频-音乐样本，其规模比以往用于视频音乐生成的数据集大几个数量级。

主要功能和特点：

大规模网络视频利用： VMAS 通过分析大量的网络音乐视频来学习如何生成音乐，这些视频包含了丰富的音乐风格和表达方式。
语义视频-音乐对齐方案： 该框架采用了一种新颖的语义对齐方案，确保生成的音乐与视频内容在高层次（如视频类型）和低层次（如场景转换或人物动作）上保持一致。
高效的视频编码器： 为了捕捉视频中细粒度的视觉线索，VMAS 引入了一个新的视频编码器架构，能够高效处理许多密集采样的帧。
自回归和对比学习目标： 模型使用联合自回归和对比学习目标，鼓励生成与视频内容高度对齐的音乐。

工作原理：