沙特阿拉伯国王科技大学的研究人员推出交互式3D布局控制方法“Build-A-Scene”(简称BAS),用于基于扩散模型的图像生成。简单来说,这个方法允许用户通过提供一个3D布局来控制图像中物体的类型、位置和方向,然后系统会根据这些信息生成一张图片。例如,一个室内设计师想要快速预览不同沙发和灯具的摆放效果。使用BAS,设计师可以首先创建一个空的房间布局,然后逐步添加沙发和灯具的3D框,并调整它们的位置和方向。BAS会根据这些信息生成一张图片,展示这些家具在房间中的样子。如果设计师想要更改沙发的位置或更换为另一种灯具,BAS可以在不重新生成整个场景的情况下,只更新更改的部分,从而节省时间并提供更大的灵活性。
- 项目主页:https://abdo-eldesokey.github.io/build-a-scene
- GitHub:https://github.com/abdo-eldesokey/build-a-scene
主要功能和特点:
- 交互式3D布局控制:与传统的2D布局控制不同,BAS允许用户在三维空间中操作物体,提供更真实的场景控制。
- 多阶段生成过程:用户可以分阶段添加或修改物体,系统会在每个阶段中根据用户的操作生成图像。
- 动态自注意力(DSA)模块:这是BAS的核心部分,它允许在不破坏已有场景内容的情况下,无缝地添加新物体。
- 一致的3D对象转换策略:即使用户更改布局,比如移动或缩放物体,BAS也能保持物体的视觉一致性。
工作原理:
- 3D布局定义:用户首先定义一个3D空间,其中可以放置3D框来表示场景中的物体。
- 多阶段生成:在每个生成阶段,用户可以插入、更改或移动3D空间中的物体,并通过DSA模块和一致的3D转换策略来生成图像。
- 扩散模型:BAS使用扩散模型从噪声数据中生成图像,通过迭代去噪过程逐步生成清晰的图像。
具体应用场景:
- 室内设计:用户可以快速生成室内布局的图像,尝试不同的家具摆放和设计风格。
- 复杂场景生成:在需要创建复杂场景的领域,如电影制作或游戏设计中,BAS可以帮助设计师快速迭代和可视化场景。
- 创意艺术:艺术家和设计师可以使用BAS来实现他们的想法,通过文本描述和3D布局来创造独特的艺术作品。
0条评论