香港城市大学、上海人工智能实验室、香港中文大学和南洋理工大学S-Lab的研究人员推出新型3D生成模型Phidias,它能够通过文本、图像以及3D条件来创造3D内容。Phidias的核心特点是利用一个额外的3D参考模型来指导生成过程,从而提高生成质量、泛化能力和可控性。
- 项目主页:https://rag-3d.github.io
- GitHub:https://github.com/3DTopia/Phidias-Diffusion
主要功能:
- 图像到3D生成:根据单张图片生成3D模型。
- 文本到3D生成:根据文本提示生成3D模型。
- 3D到3D生成:根据现有3D模型生成新的变体。
- 交互式3D生成:允许用户通过粗略的3D形状指导生成过程。
- 高保真度3D补全:修复不完整的3D模型,恢复缺失的部分。
主要特点:
- 参考增强:使用3D参考模型来提升生成的准确性和细节。
- 动态参考路由:根据生成过程中的不同阶段调整参考模型的分辨率。
- 自引用增强:通过自我增强的方式进行自监督训练,提高模型的泛化能力。
工作原理: Phidias模型分为两个阶段工作:
- 参考增强的多视图生成:首先,模型会根据输入的2D概念图像和3D参考模型生成一系列多视图图像。
- 稀疏视图3D重建:然后,使用这些多视图图像通过3D重建技术生成最终的3D模型。
在这个过程中,Phidias采用了几个关键设计:
- Meta-ControlNet:动态调整条件信号的强度,以适应概念图像与参考模型之间的相似度。
- 动态参考路由:在生成过程中根据噪声水平逐步调整参考模型的分辨率,以减少冲突并提高细节。
- 自引用增强:通过应用各种增强来模拟3D模型与其参考之间的不对齐,进行自监督训练。
具体应用场景:
- 游戏开发:快速生成游戏内3D资产,如角色、道具和环境。
- 电影和动画制作:根据概念艺术或描述创建3D模型,用于电影或动画制作。
- 建筑和设计可视化:从设计草图或描述中生成3D建筑模型。
- 教育和培训:创建3D模型用于教育目的,如历史重建或科学可视化。
- 虚拟现实和增强现实:生成3D内容用于VR或AR应用,提供沉浸式体验。
总的来说,Phidias是一个强大的3D内容创造工具,它通过结合现有的3D模型和先进的生成技术,为用户提供了一个从多种输入模态到3D输出的统一框架。
0条评论