V-AURA:根据视频生成与之匹配的音频

分类:AI音频 | 热度:45 ℃

坦佩雷大学和牛津大学的研究人员推出V-AURA模型,它用于根据视频生成与之匹配的音频。简单来说,V-AURA能够观察一段视频,并生成与之对应的、听起来很自然的音频。比如,如果视频显示一个人在弹吉他,V-AURA可以生成吉他声音的音频。

  • 项目主页:https://v-aura.notion.site
  • GitHub:https://github.com/ilpoviertola/V-AURA

主要功能:

  1. 视频到音频的生成:根据输入的视频序列合成音频。
  2. 时间对齐:确保生成的音频在时间上与视频事件紧密对齐。
  3. 语义相关性:生成的音频不仅要与视频时间上对齐,还要在语义上相关。

主要特点:

  • 自回归模型:V-AURA采用了自回归方法,这意味着它能够一步接一步地预测接下来的音频内容。
  • 高帧率视觉特征提取:它使用高帧率的视觉特征提取器,能够捕捉到视频中的细微视觉动态。
  • 跨模态音频-视觉特征融合:将音频和视觉信息结合起来,以提高时间对齐的准确性。

工作原理:

  1. 视觉编码器:首先,模型使用视觉编码器从输入视频中提取视觉和动态特征。
  2. 时间上采样:然后,将提取的视觉特征在时间上上采样,以匹配音频的时间维度。
  3. 特征融合:将时间对齐的音频和视觉特征融合,以强调音频和视频在自然情况下的共生关系。
  4. 自回归生成:给定跨模态特征嵌入,自回归模型预测下一个音频标记。
  5. 解码成波形:一旦生成的音频序列达到所需长度,就将其解码成波形表示。

具体应用场景:

  1. 电影和视频制作:在后期制作中,为视频添加匹配的音频,比如为动作场景生成音效。
  2. 增强现实(AR):在AR体验中,根据用户的视觉环境生成相应的音频,提高沉浸感。
  3. 自动字幕和配音:为视频自动生成描述性音频,帮助视障人士更好地理解视频内容。
  4. 游戏开发:在游戏中,根据玩家的视觉输入实时生成音频,比如模拟环境中的声音。

V-AURA通过在一个新的数据集VisualSound上训练,这个数据集筛选出了与音频高度相关的视频样本,从而提高了生成音频的相关性和时间对齐性。此外,该模型还引入了一个新的同步度量标准,用于评估生成音频与视频之间的时间对齐度。

声明: 猎游人 每天为你带来最新的游戏和硬件打折情报,帮你精心挑选值得玩的游戏,让您的钱花的更值!本站信息大部分来自于网友爆料,如果您发现了优质的游戏或好的价格,不妨爆料给我们吧(谢绝任何商业爆料)! 点此爆料

0条评论

Hi,您需要填写昵称和邮箱!
姓名 (必填)
邮箱 (必填)
网站

暂时木有评论