WILDVISION:用于评估视觉-语言模型(VLMs)在现实世界中表现的在线平台

分类:大语言模型 | 热度:106 ℃

艾伦人工智能研究所、华盛顿大学、加州大学圣巴巴拉分校和滑铁卢大学的研究人员推出WILDVISION,它是一个用于评估视觉-语言模型(VLMs)在现实世界中表现的在线平台。WILDVISION通过收集人类偏好来评估这些模型,特别是在多轮对话和多模态交互中的表现。例如,你是一名AI研究员,想要比较不同视觉-语言模型在理解一张图片和回答相关问题方面的能力。你可以在WILDVISION-ARENA平台上上传一张图片,并提出问题。平台将展示多个模型的回答,并让你选择哪个回答最准确或最有帮助。你的选择和其他用户的投票将共同影响模型在排行榜上的位置,帮助评估模型在实际应用中的表现。此外,通过WILDVISION-BENCH,你可以快速获取模型在一组标准化测试样本上的表现评分。

WILDVISION:用于评估视觉-语言模型(VLMs)在现实世界中表现的在线平台

主要功能:

  • 用户交互式评估:WILDVISION-ARENA平台允许用户与多个模型进行多轮聊天,并根据模型的回答进行投票,选择更好的回答。
  • 自动评估:WILDVISION-BENCH通过使用GPT-4作为评估模型,自动比较每个VLM与参考模型Claude-3-Sonnet的表现。

主要特点:

  • 真实世界数据:WILDVISION-BENCH由从20k+现实世界的对话和8k+用户评分中精选的500个样本组成。
  • 高相关性:自动模型评分与WV-ARENA上的Elo评分的相关性达到0.94的Spearman相关系数。
  • 深入分析:对20k+真实世界的多模态对话进行了全面分析,揭示了顶级VLMs的失败案例和改进方向。

工作原理:

  1. 用户参与:用户在WILDVISION-ARENA平台上与不同的VLMs进行聊天,并根据模型的回答进行投票。
  2. 样本筛选:从大量的用户提交中筛选出高质量的样本,形成WV-BENCH数据集。
  3. 自动评分:使用GPT-4o作为评估模型,对WILDVISION-BENCH中的每个VLM进行评分,与人类偏好高度一致。

具体应用场景:

  • 模型比较:研究人员和开发者可以使用WILDVISION-ARENA比较不同VLMs在特定任务上的表现。
  • 质量评估:通过WILDVISION-BENCH,可以快速评估VLMs在真实世界场景中的表现,为模型选择和改进提供依据。
  • 研究进步跟踪:WILDVISION-ARENA提供了实时的排行榜,帮助研究者跟踪VLMs领域的最新进展。
声明: 猎游人 每天为你带来最新的游戏和硬件打折情报,帮你精心挑选值得玩的游戏,让您的钱花的更值!本站信息大部分来自于网友爆料,如果您发现了优质的游戏或好的价格,不妨爆料给我们吧(谢绝任何商业爆料)! 点此爆料

0条评论

Hi,您需要填写昵称和邮箱!
姓名 (必填)
邮箱 (必填)
网站

暂时木有评论