艾伦人工智能研究所、华盛顿大学、加州大学圣巴巴拉分校和滑铁卢大学的研究人员推出WILDVISION,它是一个用于评估视觉-语言模型(VLMs)在现实世界中表现的在线平台。WILDVISION通过收集人类偏好来评估这些模型,特别是在多轮对话和多模态交互中的表现。例如,你是一名AI研究员,想要比较不同视觉-语言模型在理解一张图片和回答相关问题方面的能力。你可以在WILDVISION-ARENA平台上上传一张图片,并提出问题。平台将展示多个模型的回答,并让你选择哪个回答最准确或最有帮助。你的选择和其他用户的投票将共同影响模型在排行榜上的位置,帮助评估模型在实际应用中的表现。此外,通过WILDVISION-BENCH,你可以快速获取模型在一组标准化测试样本上的表现评分。
主要功能:
- 用户交互式评估:WILDVISION-ARENA平台允许用户与多个模型进行多轮聊天,并根据模型的回答进行投票,选择更好的回答。
- 自动评估:WILDVISION-BENCH通过使用GPT-4作为评估模型,自动比较每个VLM与参考模型Claude-3-Sonnet的表现。
主要特点:
- 真实世界数据:WILDVISION-BENCH由从20k+现实世界的对话和8k+用户评分中精选的500个样本组成。
- 高相关性:自动模型评分与WV-ARENA上的Elo评分的相关性达到0.94的Spearman相关系数。
- 深入分析:对20k+真实世界的多模态对话进行了全面分析,揭示了顶级VLMs的失败案例和改进方向。
工作原理:
- 用户参与:用户在WILDVISION-ARENA平台上与不同的VLMs进行聊天,并根据模型的回答进行投票。
- 样本筛选:从大量的用户提交中筛选出高质量的样本,形成WV-BENCH数据集。
- 自动评分:使用GPT-4o作为评估模型,对WILDVISION-BENCH中的每个VLM进行评分,与人类偏好高度一致。
具体应用场景:
- 模型比较:研究人员和开发者可以使用WILDVISION-ARENA比较不同VLMs在特定任务上的表现。
- 质量评估:通过WILDVISION-BENCH,可以快速评估VLMs在真实世界场景中的表现,为模型选择和改进提供依据。
- 研究进步跟踪:WILDVISION-ARENA提供了实时的排行榜,帮助研究者跟踪VLMs领域的最新进展。
0条评论