阿卜杜拉国王科技大学的研究人员推出新型多视角视频生成模型Vivid-ZOO,它利用扩散模型(diffusion model)从文本描述中生成围绕动态3D对象的多视角视频。扩散模型在2D图像和视频生成方面已经取得了令人印象深刻的成果,但将这一技术应用于基于文本的多视角视频生成(Text-to-Multi-view-Video, T2MVid)还相对较少探索。
- 项目主页:https://hi-zhengcheng.github.io/vividzoo
- GitHub:https://github.com/hi-zhengcheng/vividzoo
例如,用户想要生成一个“黄色和黑色条纹的蜜蜂”在飞行的多视角视频,Vivid-ZOO可以从这个文本提示出发,生成一系列从不同角度观察这个动态3D对象的视频帧,这些视频帧不仅在视觉上保持一致性,而且在时间上也是连贯的,就像真实世界中拍摄的视频一样。
主要功能:
- 文本到多视角视频的生成:Vivid-ZOO能够根据文本提示生成一个动态3D对象的多视角视频。
- 高质量视频生成:生成的视频具有生动的动作、时间连贯性和多视角一致性。
主要特点:
- 多视角和时间因素的分解:Vivid-ZOO将T2MVid问题分解为视角空间和时间组件,这样可以结合使用先进的预训练多视角图像和2D视频扩散模型的层。
- 减少训练成本:通过这种分解,Vivid-ZOO能够在训练时重用现有模型的层,显著降低了训练成本。
- 对齐模块:引入了对齐模块来调整预训练模型的潜在空间,解决了由于2D和多视角数据领域差异导致的重用层不兼容问题。
工作原理:
- 视角空间组件:确保生成的多视角视频在几何上是一致的,并且与输入文本对齐。
- 时间组件:确保生成的多视角视频在时间上是连贯的。
- 对齐层:通过3D-2D对齐层和2D-3D对齐层,将预训练的2D视频和多视角图像扩散模型的层结合起来,解决领域差异问题。
具体应用场景:
- 增强现实/虚拟现实(AR/VR):为虚拟环境生成多视角视频,提供更加真实和沉浸式的体验。
- 3D/4D建模:在3D打印或动画制作中生成多视角视频,帮助设计师更好地预览和修改模型。
- 媒体制作:在电影或视频游戏制作中,根据剧本描述自动生成多视角场景视频。
- 交互式娱乐:在交互式应用中,根据用户输入的文本描述生成相应的多视角视频内容。
0条评论