Latent Diffusion Models:用于在极短的时间内从2D图像数据高效生成3D场景

分类:3D | 热度:53 ℃

格拉斯哥大学和爱丁堡大学的研究人员推出新技术Latent Diffusion Models,用于在极短的时间内从2D图像数据高效生成3D场景。这项技术的核心是一种自编码器,它能够将多视角的2D图像映射到3D高斯Splats,同时构建这些Splats的压缩潜在表示。简单来说,就是通过一个智能的转换过程,把平面的多角度图片转换成具有空间深度的3D模型。

例如,你是一名游戏设计师,需要快速生成一个3D城市环境。使用这项技术,你可以从不同角度拍摄城市的照片,然后通过这个模型迅速生成一个详细的3D城市模型,包括建筑物、道路和植被等。这个过程不仅速度快,而且生成的3D场景看起来非常真实,就像它们真的存在于现实世界中一样。

主要功能

  • 快速生成3D场景:这项技术能够在不到0.2秒的时间内生成3D场景,无论是从头开始、从单个输入视角还是从稀疏的输入视角。
  • 多视角扩散模型:在潜在空间上训练一个多视角扩散模型,学习一个高效的生成模型。

主要特点

  • 速度:相比以前的非潜在扩散模型和基于NeRF的生成模型,新方法的速度提升了近一个数量级。
  • 质量:生成的3D场景多样且高质量。
  • 无需复杂的先验数据:不需要物体掩膜或深度信息,适合于任意相机位置下的复杂场景。

工作原理

  1. 自编码器设计:首先设计一个自编码器,它将多视角图像映射到3D高斯Splats,并同时构建这些Splats的压缩潜在表示。
  2. 多视角扩散模型训练:在潜在空间上训练一个扩散模型,该模型学习如何从潜在表示中生成3D场景。
  3. 高斯Splats:采用高斯Splats作为3D表示,它在重建质量和训练/渲染速度之间取得了良好的平衡。
  4. 条件生成:模型可以根据输入图像或类别标签的条件信号进行无条件生成、单图像3D重建或稀疏视角3D重建。

具体应用场景

  • 游戏和视觉效果:在游戏和视觉效果中,这项技术可以轻松创建3D资产,这在以前是困难、缓慢且昂贵的。
  • 计算机视觉:在计算机视觉中,它能够从单张图片重建现实场景的3D模型,即使图片中不可见的区域也能通过生成模型合成出合理的3D细节。
声明: 猎游人 每天为你带来最新的游戏和硬件打折情报,帮你精心挑选值得玩的游戏,让您的钱花的更值!本站信息大部分来自于网友爆料,如果您发现了优质的游戏或好的价格,不妨爆料给我们吧(谢绝任何商业爆料)! 点此爆料

0条评论

Hi,您需要填写昵称和邮箱!
姓名 (必填)
邮箱 (必填)
网站

暂时木有评论