新方法Whiteboard-of-Thought(思维白板):提升多模态大语言模型在视觉推理方面的能力

分类:大语言模型 | 热度:92 ℃

哥伦比亚大学的研究人员推出新方法“Whiteboard-of-Thought”(思维白板,简称WoT),旨在提升多模态大语言模型(MLLMs)在视觉推理方面的能力。这种方法模仿了人类在解决视觉问题时的自然行为,即通过形成心理图像或绘制视觉辅助图来转换推理方式。论文还讨论了WoT方法的局限性,比如对准确视觉系统的要求,以及随着计算机视觉技术的发展,WoT方法的潜在应用将更加广泛。此外,作者还提到了WoT可能带来的风险,比如新形式的对抗性攻击,以及对某些就业形式的潜在影响。

  • 项目主页:https://whiteboard.cs.columbia.edu

例如,我们有一个ASCII字符组成的迷宫,需要确定一个特定的路径。人类可能会在脑海中想象这个迷宫或在纸上画出它。使用WoT,MLLM首先生成创建迷宫视觉表示的代码,然后执行这段代码生成图像,最后根据这个图像来推理出正确的路径。

主要功能和特点:

  1. 跨模态视觉推理:WoT通过提供一个形象化的“白板”来解锁MLLMs的视觉推理能力,使模型能够在不同模态之间进行思考和推理。
  2. 无需示例或特殊模块:该方法不需要额外的示例或专门的模块,而是利用模型已有的编写代码的能力,使用如Matplotlib和Turtle等库来创建图像。
  3. 提高准确性:WoT在涉及视觉和空间推理的四个自然语言任务上展示了最先进的结果,显著提高了模型的准确性。

工作原理:

WoT的工作流程分为以下几个步骤:

  • 生成可视化代码:MLLM接收到问题后,生成用于创建视觉辅助图的代码。
  • 执行代码创建图像:执行生成的代码,将问题的视觉方面转化为图像。
  • 图像处理:利用MLLM的多模态输入能力,处理生成的图像,并根据图像进行进一步的推理或回答问题。

具体应用场景:

  1. ASCII艺术理解:例如,识别由ASCII字符组成的艺术图像,这通常需要视觉而非仅仅文本的理解。
  2. 空间导航:在自然语言中给出空间指令,如导航任务,WoT可以帮助模型通过视觉化指令来解决问题。
  3. 视频游戏艺术:在视频游戏中,玩家通过文本指令创造艺术作品,WoT可以帮助模型理解这些指令的视觉结果。
声明: 猎游人 每天为你带来最新的游戏和硬件打折情报,帮你精心挑选值得玩的游戏,让您的钱花的更值!本站信息大部分来自于网友爆料,如果您发现了优质的游戏或好的价格,不妨爆料给我们吧(谢绝任何商业爆料)! 点此爆料

0条评论

Hi,您需要填写昵称和邮箱!
姓名 (必填)
邮箱 (必填)
网站

暂时木有评论