专门用于新视角声音合成的新型模型AV-GS:根据单一音源发出的单声道音频,生成任何目标视点的双声道音频(立体声)

分类:AI音频 | 热度:37 ℃

英国萨里大学和英国伦敦帝国理工学院的研究人员推出新型模型AV-GS(Audio-Visual Gaussian Splatting),它专门用于新视角声音合成(Novel View Acoustic Synthesis, NVAS),即在三维空间中,根据单一音源发出的单声道音频,生成任何目标视点的双声道音频(立体声)。这项技术对于增强现实(AR)和虚拟现实(VR)应用至关重要,因为它能提供更加真实和沉浸式的听觉体验。

  • 项目主页:https://surrey-uplab.github.io/research/avgs
  • GitHub:https://github.com/Surrey-UP-Lab/AV-GS

例如,你在玩一个虚拟现实游戏,游戏中有一个场景是在一个古老的城堡里。使用AV-GS,可以根据城堡的三维模型和你的相对位置,生成逼真的立体声音频,让你感觉到就像真的在城堡中行走一样,可以听到脚步声在走廊中回响,或者远处守卫的对话声。这种技术让虚拟体验更加真实和引人入胜。

专门用于新视角声音合成的新型模型AV-GS:根据单一音源发出的单声道音频,生成任何目标视点的双声道音频(立体声)

主要功能:

  • 立体声合成:AV-GS能够将单声道音频转换成具有方向性、距离感和相对高度的立体声音频。
  • 场景理解和声音传播模拟:模型能够理解三维场景的几何结构和材料属性,模拟声音在空间中的传播,包括直射声、早期反射和晚期混响等复杂声学现象。

主要特点:

  • 显式点云表示:与传统的基于NeRF的隐式模型不同,AV-GS使用显式的点云表示来捕捉场景的几何和材料特性。
  • 声音引导参数:模型在局部初始化的高斯点上引入音频引导参数,以考虑听者和声源之间的空间关系。
  • 自适应视觉场景模型:通过点的密集化和修剪策略,优化高斯点的分布,以适应声音传播的需要。

工作原理:

  1. 3D高斯点云表示:使用3D Gaussian Splatting(3DGS)方法学习场景的显式点云表示。
  2. 声场网络:通过声场网络处理听者和声源附近的高斯点,结合音频引导参数,为立体声合成提供全面的场景和材料上下文。
  3. 立体声音频合成:使用音频双声道化模块,根据听者相对于声源的位置和方向,以及学习到的场景上下文,将单声道音频转换为立体声音频。

具体应用场景:

  • 虚拟现实和增强现实:在VR和AR环境中,AV-GS可以提供逼真的立体声音频,增强用户的沉浸感。
  • 游戏和电影制作:在游戏或电影的后期制作中,可以根据场景自动生成立体声音频,提升观众的听觉体验。
  • 室内设计和建筑可视化:在设计评估阶段,AV-GS可以帮助设计师预览空间的声音效果,如回声和混响。
声明: 猎游人 每天为你带来最新的游戏和硬件打折情报,帮你精心挑选值得玩的游戏,让您的钱花的更值!本站信息大部分来自于网友爆料,如果您发现了优质的游戏或好的价格,不妨爆料给我们吧(谢绝任何商业爆料)! 点此爆料

0条评论

Hi,您需要填写昵称和邮箱!
姓名 (必填)
邮箱 (必填)
网站

暂时木有评论