哥伦比亚大学的研究人员推出新方法“Whiteboard-of-Thought”(思维白板,简称WoT),旨在提升多模态大语言模型(MLLMs)在视觉推理方面的能力。这种方法模仿了人类在解决视觉问题时的自然行为,即通过形成心理图像或绘制视觉辅助图来转换推理方式。论文还讨论了WoT方法的局限性,比如对准确视觉系统的要求,以及随着计算机视觉技术的发展,WoT方法的潜在应用将更加广泛。此外,作者还提到了WoT可能带来的风险,比如新形式的对抗性攻击,以及对某些就业形式的潜在影响。
- 项目主页:https://whiteboard.cs.columbia.edu
例如,我们有一个ASCII字符组成的迷宫,需要确定一个特定的路径。人类可能会在脑海中想象这个迷宫或在纸上画出它。使用WoT,MLLM首先生成创建迷宫视觉表示的代码,然后执行这段代码生成图像,最后根据这个图像来推理出正确的路径。
主要功能和特点:
- 跨模态视觉推理:WoT通过提供一个形象化的“白板”来解锁MLLMs的视觉推理能力,使模型能够在不同模态之间进行思考和推理。
- 无需示例或特殊模块:该方法不需要额外的示例或专门的模块,而是利用模型已有的编写代码的能力,使用如Matplotlib和Turtle等库来创建图像。
- 提高准确性:WoT在涉及视觉和空间推理的四个自然语言任务上展示了最先进的结果,显著提高了模型的准确性。
工作原理:
WoT的工作流程分为以下几个步骤:
- 生成可视化代码:MLLM接收到问题后,生成用于创建视觉辅助图的代码。
- 执行代码创建图像:执行生成的代码,将问题的视觉方面转化为图像。
- 图像处理:利用MLLM的多模态输入能力,处理生成的图像,并根据图像进行进一步的推理或回答问题。
具体应用场景:
- ASCII艺术理解:例如,识别由ASCII字符组成的艺术图像,这通常需要视觉而非仅仅文本的理解。
- 空间导航:在自然语言中给出空间指令,如导航任务,WoT可以帮助模型通过视觉化指令来解决问题。
- 视频游戏艺术:在视频游戏中,玩家通过文本指令创造艺术作品,WoT可以帮助模型理解这些指令的视觉结果。
0条评论