斯坦福大学研究人员推出BlenderAlchemy,它是一个利用视觉语言模型(Vision-Language Models,简称VLMs)来编辑3D图形的智能系统。这个系统特别适用于需要精细调整的3D图形设计工作,比如电影制作和游戏设计中的高质量场景创建。通过这种方式,BlenderAlchemy不仅提高了3D设计的效率,还扩展了设计师的创造力,使他们能够快速实现复杂的视觉设计目标。例如,你是一名游戏设计师,需要将一个木制的3D模型转换成金属质感。在BlenderAlchemy的帮助下,你只需提供金属材质的描述或参考图片,系统就会自动生成一系列Blender操作,将木质纹理转换成金属效果,大大减少了手动调整的时间和复杂性。
主要功能:
BlenderAlchemy的核心功能是将设计师的语言描述或参考图片转换成3D软件Blender中的操作序列,自动实现设计师的意图。这包括编辑程序化材料(procedural materials)和调整复杂场景中的光照配置。
主要特点:
- 迭代视觉程序编辑: 系统通过迭代的方式,不断精细化Blender中的Python程序,以产生满足用户意图的最终渲染图像。
- 视觉引导的程序搜索: 结合视觉感知的编辑生成器和状态评估器,以迭代搜索合适的程序编辑。
- 视觉想象力: 使用文本到图像的生成模型来创建“想象”的参考图像,帮助系统更好地理解抽象的语言描述。
工作原理:
BlenderAlchemy的工作流程大致如下:
- 初始化工作区状态: 在Blender中设置一个基础的工作状态,并通过Python程序参数化。
- 用户输入: 用户通过文本描述和/或参考图像传达所需的设计结果。
- 迭代精炼: 系统使用编辑生成器提出可能的程序编辑,执行这些编辑以产生渲染图像,然后由视觉评估器通过成对比较来选择最佳渲染。
具体应用场景:
- 材料编辑: 设计师可以通过文字描述,如“将木质材料编辑成类似大理石的材质”,系统会自动调整Blender中的材料设置来实现这一目标。
- 光照调整: 根据设计师的语言指令,如“为夜间场景设置照明”,系统会调整场景中的光照条件以匹配描述。
0条评论