当前位置：首页 > 优惠 >大语言模型>文章详情

新型基准测试Blink：专门用于评估多模态大语言模型在核心视觉感知能力方面的表现

推荐人：暴走AI| 商城: AI | 1年前 (2024-04-20)| 分类：大语言模型 | 热度：295 ℃

已关闭评论

新型基准测试Blink：专门用于评估多模态大语言模型在核心视觉感知能力方面的表现

AI

新型基准测试Blink，它专门用于评估多模态大型语言模型（LLMs）在核心视觉感知能力方面的表现。这些能力往往在其他评估中被忽视，但对于人类来说却是非常直观和本能的，例如相对深度估计、视觉对应、法医检测和多视图推理等任务。Blink基准测试包含14个经典计算机视觉任务，这些任务被重新构想为3,807个多项选择题，配以单幅或多幅图像和视觉提示。尽管人类平均准确率高达95.70%，但现有的多模态LLMs在这些任务上的表现却出人意料地差，即使是表现最好的GPT-4V和Gemini模型，准确率也仅为51.26%和45.72%，仅比随机猜测高出13.17%和7.63%。

主要功能和特点：

多模态评估：Blink旨在评估多模态LLMs在多种视觉感知任务上的性能。
直观任务设计：Blink的任务设计直观，人类可以迅速解决，但对机器来说却具有挑战性。
多项选择格式：所有任务都以多项选择题的形式呈现，答案可以是图像或文本。
视觉提示多样性：Blink包含多种视觉提示，如圆圈、框和图像遮罩，以评估模型对图像特定区域的理解。

工作原理：

Blink通过将传统的计算机视觉问题转化为多项选择题，来测试多模态LLMs在不同感知复杂度层级上的能力。这些任务包括从低级的模式匹配到中级的空间推理，再到高级的视觉理解。Blink使用现有的视觉数据集，并通过人工编写的问题来构建其测试集。

具体应用场景：

视觉问答（VQA）：评估模型在理解视觉内容并回答相关问题方面的能力。
视觉推理：测试模型在处理需要推理的视觉任务，如多视图推理和相对深度估计上的表现。
法医检测：评估模型区分真实和合成图像的能力，这对于检测深度伪造（deepfakes）等恶意使用AI的场景至关重要。
视觉相似性评估：测试模型在比较图像并识别视觉相似性方面的能力。

Blink基准测试的目的是激发社区帮助多模态LLMs达到人类级别的视觉感知水平，并为未来的改进提供潜在的路径。通过与专家级计算机视觉模型的比较，Blink揭示了多模态LLMs在这些任务上的感知能力之前被高估了，并指出了通过整合在这些领域表现出色的专业模型的见解，这些模型可能会取得进展。

Blink

声明： 猎游人每天为你带来最新的游戏和硬件打折情报，帮你精心挑选值得玩的游戏，让您的钱花的更值！本站信息大部分来自于网友爆料，如果您发现了优质的游戏或好的价格，不妨爆料给我们吧（谢绝任何商业爆料）！点此爆料

上一篇： SurgeGlobal推出OpenBezoar模型：在多种指令数据上进行训练得到的，目的是为了提高预训练大语言模型在多种下游任务上的性能

下一篇： Reka推出多模态语言模型Reka Core

0条评论

暂时木有评论

猜你喜欢

查看更多商品

我要爆料我的收藏顶部

© Copyright2019-2024 | 版权所有：猎游人| 皖ICP备18025588号-1

快速登录