当前位置：首页 > 优惠 >大语言模型>文章详情

Visual SKETCHPAD：赋予了多模态语言模型一种新的可视化工具——素描板，以及在素描板上绘图的能力

推荐人：暴走AI| 商城: AI | 1年前 (2024-06-16)| 分类：大语言模型 | 热度：285 ℃

已关闭评论

Visual SKETCHPAD：赋予了多模态语言模型一种新的可视化工具——素描板，以及在素描板上绘图的能力

AI

华盛顿大学、艾伦人工智能研究所和宾夕法尼亚大学的研究人员推出Visual SKETCHPAD，它赋予了多模态语言模型（LMs）一种新的可视化工具——素描板，以及在素描板上绘图的能力。这就像给计算机一个可以在上面画草图的画板，帮助它更好地理解和解决问题。例如，当你在解决一个几何问题时，你可能会在纸上画一些辅助线来帮助思考。Visual SKETCHPAD就像给计算机提供了这样一个能力，让它在处理问题时，能够“画”出一些图形或标记来帮助自己理解问题和找到解决方案。

项目主页：https://visualsketchpad.github.io
GitHub：https://github.com/Yushi-Hu/VisualSketchpad

主要功能：

可视化推理：通过在素描板上绘制图形和标记，增强了模型对视觉和空间概念的理解。
多模态交互：结合了文本和视觉信息，使模型能够更全面地处理问题。

主要特点：

素描板工具：提供了一系列的工具，让模型能够绘制线条、框、标记等，类似于人类的草图。
视觉感知增强：在绘图过程中可以使用专家视觉模型，例如对象检测模型来绘制边界框，或分割模型来绘制掩膜。

工作原理：

问题理解：模型接收到一个问题，并分析问题的上下文。
绘图计划：根据问题，模型生成一个绘图计划，决定需要绘制什么样的视觉元素。
执行绘图：模型使用Python代码调用素描板工具，执行绘图动作，生成视觉草图。
分析与响应：通过分析生成的草图，模型提取关键信息，并最终回答问题。

具体应用场景：

数学问题解决：例如几何问题，模型可以在素描板上绘制辅助线来帮助证明几何定理。
视觉推理任务：如在图像中寻找物体的相对位置，模型可以绘制边界框来识别和比较物体。
复杂视觉问题：例如在棋盘游戏中分析策略，模型可以绘制棋盘的视觉表示来辅助决策。

Visual SKETCHPAD通过结合语言和视觉推理，显著提高了多模态语言模型在数学和视觉任务上的性能，为未来更高级的多模态智能提供了新的可能性。

Visual SKETCHPAD 素描板

声明： 猎游人每天为你带来最新的游戏和硬件打折情报，帮你精心挑选值得玩的游戏，让您的钱花的更值！本站信息大部分来自于网友爆料，如果您发现了优质的游戏或好的价格，不妨爆料给我们吧（谢绝任何商业爆料）！点此爆料

上一篇：新基准测试TC-Bench：用来评估和比较不同的视频生成模型在处理时间维度上组合性的能力

下一篇：综合性基准测试工具CS-Bench：专门设计用来评估大语言模型在计算机科学（CS）领域的性能

0条评论

暂时木有评论

猜你喜欢

查看更多商品

我要爆料我的收藏顶部

© Copyright2019-2024 | 版权所有：猎游人| 皖ICP备18025588号-1

快速登录