新型基准测试Blink:专门用于评估多模态大语言模型在核心视觉感知能力方面的表现

分类:大语言模型 | 热度:169 ℃

新型基准测试Blink,它专门用于评估多模态大型语言模型(LLMs)在核心视觉感知能力方面的表现。这些能力往往在其他评估中被忽视,但对于人类来说却是非常直观和本能的,例如相对深度估计、视觉对应、法医检测和多视图推理等任务。Blink基准测试包含14个经典计算机视觉任务,这些任务被重新构想为3,807个多项选择题,配以单幅或多幅图像和视觉提示。尽管人类平均准确率高达95.70%,但现有的多模态LLMs在这些任务上的表现却出人意料地差,即使是表现最好的GPT-4V和Gemini模型,准确率也仅为51.26%和45.72%,仅比随机猜测高出13.17%和7.63%。

主要功能和特点:

  1. 多模态评估:Blink旨在评估多模态LLMs在多种视觉感知任务上的性能。
  2. 直观任务设计:Blink的任务设计直观,人类可以迅速解决,但对机器来说却具有挑战性。
  3. 多项选择格式:所有任务都以多项选择题的形式呈现,答案可以是图像或文本。
  4. 视觉提示多样性:Blink包含多种视觉提示,如圆圈、框和图像遮罩,以评估模型对图像特定区域的理解。

工作原理:

Blink通过将传统的计算机视觉问题转化为多项选择题,来测试多模态LLMs在不同感知复杂度层级上的能力。这些任务包括从低级的模式匹配到中级的空间推理,再到高级的视觉理解。Blink使用现有的视觉数据集,并通过人工编写的问题来构建其测试集。

具体应用场景:

  1. 视觉问答(VQA):评估模型在理解视觉内容并回答相关问题方面的能力。
  2. 视觉推理:测试模型在处理需要推理的视觉任务,如多视图推理和相对深度估计上的表现。
  3. 法医检测:评估模型区分真实和合成图像的能力,这对于检测深度伪造(deepfakes)等恶意使用AI的场景至关重要。
  4. 视觉相似性评估:测试模型在比较图像并识别视觉相似性方面的能力。

Blink基准测试的目的是激发社区帮助多模态LLMs达到人类级别的视觉感知水平,并为未来的改进提供潜在的路径。通过与专家级计算机视觉模型的比较,Blink揭示了多模态LLMs在这些任务上的感知能力之前被高估了,并指出了通过整合在这些领域表现出色的专业模型的见解,这些模型可能会取得进展。

声明: 猎游人 每天为你带来最新的游戏和硬件打折情报,帮你精心挑选值得玩的游戏,让您的钱花的更值!本站信息大部分来自于网友爆料,如果您发现了优质的游戏或好的价格,不妨爆料给我们吧(谢绝任何商业爆料)! 点此爆料

0条评论

Hi,您需要填写昵称和邮箱!
姓名 (必填)
邮箱 (必填)
网站

暂时木有评论