4Real:从文本提示生成接近照片级逼真度的四维场景(4D场景)的生成框架

分类:3D | 热度:39 ℃

Snap和卡内基梅隆大学的研究人员推出4Real系统,它是一个能够从文本提示生成接近照片级逼真度的四维场景(4D场景)的生成框架。四维在这里指的是包括时间维度的三维动态场景。4Real利用了视频扩散模型(video diffusion models)和可变形的三维高斯Splats(Deformable 3D Gaussian Splats,简称D-3DGS)来构建场景。

例如:一个电影制片人想要创造一个“宝宝吃冰淇淋”的场景,他们可以简单地描述这个场景,4Real就能生成一个视频,展示宝宝在不同时间、从不同视角吃冰淇淋的样子。这大大简化了传统上需要复杂设备和后期制作的流程。

主题介绍:

想象一下,你只需要用文字描述一个场景,比如“两只熊猫在打牌”,4Real就能生成一个动态的视频,展示这个场景随时间的变化。这就像是拥有一个能够读懂你想法的魔法相机,它可以创造出你想要的任何动态世界。

主要功能:

  • 文本到视频的转换:用户输入文本描述,4Real生成相应的动态视频。
  • 高逼真度:生成的视频具有接近真实照片的质量,包括物体、光照和环境的逼真渲染。
  • 动态场景:不仅生成静态图像,还能展现物体随时间的运动和变化。

主要特点:

  • 不依赖多视角生成模型:与以往依赖于多视角数据的方法不同,4Real利用了大规模真实世界视频数据训练的视频生成模型。
  • 灵活性和多样性:能够生成更广泛和多样化的结果,提供更灵活的使用案例。
  • 计算效率:相比其他方法,4Real在合理的计算预算内生成高质量样本,大幅减少了所需时间。

工作原理:

4Real的工作流程分为几个步骤:

  1. 生成参考视频:使用预训练的文本到视频扩散模型,根据文本提示生成一个动态场景的参考视频。
  2. 构建规范的3D表示:从参考视频中选取一帧,生成一个“冻结时间”的视频,通过应用数据集上下文嵌入和提示工程到视频扩散模型中。
  3. 处理帧间变形:识别并学习冻结时间视频中的不一致性,作为相对于规范3D表示的每帧变形。
  4. 学习时间变形:基于规范表示捕获参考视频中的动态交互,重建时间变形。

具体应用场景:

  • 电影制作:生成逼真的动态背景或场景,用于电影的特效制作。
  • 虚拟现实:创造沉浸式的虚拟环境,提供交互体验。
  • 游戏开发:设计游戏内的场景和动态元素,增加游戏的真实感。
  • 教育和培训:模拟真实世界的情境,用于教育或专业培训。
声明: 猎游人 每天为你带来最新的游戏和硬件打折情报,帮你精心挑选值得玩的游戏,让您的钱花的更值!本站信息大部分来自于网友爆料,如果您发现了优质的游戏或好的价格,不妨爆料给我们吧(谢绝任何商业爆料)! 点此爆料

0条评论

Hi,您需要填写昵称和邮箱!
姓名 (必填)
邮箱 (必填)
网站

暂时木有评论