这篇论文介绍了一种名为“布局学习”(Layout Learning)的方法,它能够生成可以分解为独立对象的3D场景。这种方法是无监督的,仅依赖于一个大型预训练的文本到图像模型的知识。核心思想是通过对3D场景的部分进行空间重排,仍然能够产生相同场景的有效配置,从而发现场景中的对象。
项目主页:https://dave.ml/layoutlearning
论文地址:https://arxiv.org/abs/2402.16936
主要功能:
- 生成可以分解为独立对象的3D场景。
- 通过优化多个神经辐射场(NeRFs)和一组布局来实现场景的组合生成。
- 使得生成的3D场景在视觉上与文本提示相匹配,同时保持场景的“良好形成”(well-formed)。
主要特点:
- 无监督学习,不需要额外的标注或监督。
- 简单有效,通过布局学习可以实现对象的分离。
- 支持文本到3D内容的创建,为用户在文本到3D管道中提供更细粒度的场景操控能力。
工作原理:
- 首先,为给定场景实例化并渲染多个NeRFs,而不是仅一个,鼓励模型使用每个NeRF来表示一个单独的3D实体。
- 通过学习一组不同的布局——即每个NeRF的3D仿射变换——来实现这一点,这些布局必须能够产生在给定文本提示下渲染成分布内2D图像的复合场景。
- 在训练过程中,随机采样一个布局,并使用该布局变换所有NeRFs到共享坐标空间中。然后渲染结果体积,并使用得分蒸馏(score distillation)和每个NeRF的正则化来防止退化分解和几何形状。
具体应用场景:
- 视频游戏设计:可以用于创建复杂的游戏场景,其中包含多个可以独立操控的对象。
- 虚拟现实(VR)和增强现实(AR):在这些领域中,可以生成和编辑3D场景,以提供更丰富的用户体验。
- 电影和动画制作:可以用于创建和编辑3D动画场景,提供更多的创作自由度。
- 建筑设计和城市规划:可以用于生成和分析建筑设计和城市规划的3D模型。
总的来说,布局学习为3D场景的生成和编辑提供了一种新的方法,它能够在不需要额外监督的情况下,有效地将3D场景分解为独立的、可操控的对象。
0条评论