当前位置：首页 > 优惠 >大语言模型>文章详情

新方法Whiteboard-of-Thought（思维白板）：提升多模态大语言模型在视觉推理方面的能力

推荐人：暴走AI| 商城: AI | 1年前 (2024-06-23)| 分类：大语言模型 | 热度：245 ℃

已关闭评论

新方法Whiteboard-of-Thought（思维白板）：提升多模态大语言模型在视觉推理方面的能力

AI

哥伦比亚大学的研究人员推出新方法“Whiteboard-of-Thought”（思维白板，简称WoT），旨在提升多模态大语言模型（MLLMs）在视觉推理方面的能力。这种方法模仿了人类在解决视觉问题时的自然行为，即通过形成心理图像或绘制视觉辅助图来转换推理方式。论文还讨论了WoT方法的局限性，比如对准确视觉系统的要求，以及随着计算机视觉技术的发展，WoT方法的潜在应用将更加广泛。此外，作者还提到了WoT可能带来的风险，比如新形式的对抗性攻击，以及对某些就业形式的潜在影响。

项目主页：https://whiteboard.cs.columbia.edu

例如，我们有一个ASCII字符组成的迷宫，需要确定一个特定的路径。人类可能会在脑海中想象这个迷宫或在纸上画出它。使用WoT，MLLM首先生成创建迷宫视觉表示的代码，然后执行这段代码生成图像，最后根据这个图像来推理出正确的路径。

主要功能和特点：

跨模态视觉推理：WoT通过提供一个形象化的“白板”来解锁MLLMs的视觉推理能力，使模型能够在不同模态之间进行思考和推理。
无需示例或特殊模块：该方法不需要额外的示例或专门的模块，而是利用模型已有的编写代码的能力，使用如Matplotlib和Turtle等库来创建图像。
提高准确性：WoT在涉及视觉和空间推理的四个自然语言任务上展示了最先进的结果，显著提高了模型的准确性。

工作原理：

WoT的工作流程分为以下几个步骤：

生成可视化代码：MLLM接收到问题后，生成用于创建视觉辅助图的代码。
执行代码创建图像：执行生成的代码，将问题的视觉方面转化为图像。
图像处理：利用MLLM的多模态输入能力，处理生成的图像，并根据图像进行进一步的推理或回答问题。

具体应用场景：

ASCII艺术理解：例如，识别由ASCII字符组成的艺术图像，这通常需要视觉而非仅仅文本的理解。
空间导航：在自然语言中给出空间指令，如导航任务，WoT可以帮助模型通过视觉化指令来解决问题。
视频游戏艺术：在视频游戏中，玩家通过文本指令创造艺术作品，WoT可以帮助模型理解这些指令的视觉结果。

WoT 思维白板

声明： 猎游人每天为你带来最新的游戏和硬件打折情报，帮你精心挑选值得玩的游戏，让您的钱花的更值！本站信息大部分来自于网友爆料，如果您发现了优质的游戏或好的价格，不妨爆料给我们吧（谢绝任何商业爆料）！点此爆料

上一篇：新基准测试MMBench-Video：为视频理解而设计的长期多镜头视频问答（VideoQA）评估工具

下一篇：英国的免费图片和视频托管服务「ImgPile」

0条评论

暂时木有评论

猜你喜欢

查看更多商品

我要爆料我的收藏顶部

© Copyright2019-2024 | 版权所有：猎游人| 皖ICP备18025588号-1

快速登录