坦佩雷大学和牛津大学的研究人员推出V-AURA模型,它用于根据视频生成与之匹配的音频。简单来说,V-AURA能够观察一段视频,并生成与之对应的、听起来很自然的音频。比如,如果视频显示一个人在弹吉他,V-AURA可以生成吉他声音的音频。
- 项目主页:https://v-aura.notion.site
- GitHub:https://github.com/ilpoviertola/V-AURA
主要功能:
- 视频到音频的生成:根据输入的视频序列合成音频。
- 时间对齐:确保生成的音频在时间上与视频事件紧密对齐。
- 语义相关性:生成的音频不仅要与视频时间上对齐,还要在语义上相关。
主要特点:
- 自回归模型:V-AURA采用了自回归方法,这意味着它能够一步接一步地预测接下来的音频内容。
- 高帧率视觉特征提取:它使用高帧率的视觉特征提取器,能够捕捉到视频中的细微视觉动态。
- 跨模态音频-视觉特征融合:将音频和视觉信息结合起来,以提高时间对齐的准确性。
工作原理:
- 视觉编码器:首先,模型使用视觉编码器从输入视频中提取视觉和动态特征。
- 时间上采样:然后,将提取的视觉特征在时间上上采样,以匹配音频的时间维度。
- 特征融合:将时间对齐的音频和视觉特征融合,以强调音频和视频在自然情况下的共生关系。
- 自回归生成:给定跨模态特征嵌入,自回归模型预测下一个音频标记。
- 解码成波形:一旦生成的音频序列达到所需长度,就将其解码成波形表示。
具体应用场景:
- 电影和视频制作:在后期制作中,为视频添加匹配的音频,比如为动作场景生成音效。
- 增强现实(AR):在AR体验中,根据用户的视觉环境生成相应的音频,提高沉浸感。
- 自动字幕和配音:为视频自动生成描述性音频,帮助视障人士更好地理解视频内容。
- 游戏开发:在游戏中,根据玩家的视觉输入实时生成音频,比如模拟环境中的声音。
V-AURA通过在一个新的数据集VisualSound上训练,这个数据集筛选出了与音频高度相关的视频样本,从而提高了生成音频的相关性和时间对齐性。此外,该模型还引入了一个新的同步度量标准,用于评估生成音频与视频之间的时间对齐度。
0条评论