当前位置：首页 > 优惠 >大语言模型>文章详情

WILDVISION：用于评估视觉-语言模型（VLMs）在现实世界中表现的在线平台

推荐人：暴走AI| 商城: AI | 10个月前 (06-18)| 分类：大语言模型 | 热度：216 ℃

已关闭评论

WILDVISION：用于评估视觉-语言模型（VLMs）在现实世界中表现的在线平台

AI

艾伦人工智能研究所、华盛顿大学、加州大学圣巴巴拉分校和滑铁卢大学的研究人员推出WILDVISION，它是一个用于评估视觉-语言模型（VLMs）在现实世界中表现的在线平台。WILDVISION通过收集人类偏好来评估这些模型，特别是在多轮对话和多模态交互中的表现。例如，你是一名AI研究员，想要比较不同视觉-语言模型在理解一张图片和回答相关问题方面的能力。你可以在WILDVISION-ARENA平台上上传一张图片，并提出问题。平台将展示多个模型的回答，并让你选择哪个回答最准确或最有帮助。你的选择和其他用户的投票将共同影响模型在排行榜上的位置，帮助评估模型在实际应用中的表现。此外，通过WILDVISION-BENCH，你可以快速获取模型在一组标准化测试样本上的表现评分。

WILDVISION：用于评估视觉-语言模型（VLMs）在现实世界中表现的在线平台

主要功能：

用户交互式评估：WILDVISION-ARENA平台允许用户与多个模型进行多轮聊天，并根据模型的回答进行投票，选择更好的回答。
自动评估：WILDVISION-BENCH通过使用GPT-4作为评估模型，自动比较每个VLM与参考模型Claude-3-Sonnet的表现。

主要特点：

真实世界数据：WILDVISION-BENCH由从20k+现实世界的对话和8k+用户评分中精选的500个样本组成。
高相关性：自动模型评分与WV-ARENA上的Elo评分的相关性达到0.94的Spearman相关系数。
深入分析：对20k+真实世界的多模态对话进行了全面分析，揭示了顶级VLMs的失败案例和改进方向。

工作原理：

用户参与：用户在WILDVISION-ARENA平台上与不同的VLMs进行聊天，并根据模型的回答进行投票。
样本筛选：从大量的用户提交中筛选出高质量的样本，形成WV-BENCH数据集。
自动评分：使用GPT-4o作为评估模型，对WILDVISION-BENCH中的每个VLM进行评分，与人类偏好高度一致。

具体应用场景：

模型比较：研究人员和开发者可以使用WILDVISION-ARENA比较不同VLMs在特定任务上的表现。
质量评估：通过WILDVISION-BENCH，可以快速评估VLMs在真实世界场景中的表现，为模型选择和改进提供依据。
研究进步跟踪：WILDVISION-ARENA提供了实时的排行榜，帮助研究者跟踪VLMs领域的最新进展。

WILDVISION

声明： 猎游人每天为你带来最新的游戏和硬件打折情报，帮你精心挑选值得玩的游戏，让您的钱花的更值！本站信息大部分来自于网友爆料，如果您发现了优质的游戏或好的价格，不妨爆料给我们吧（谢绝任何商业爆料）！点此爆料

上一篇：强化学习方法WPO（加权偏好优化）：改善大语言模型与人类价值观的一致性

下一篇：基准测试和指令调整数据集MMDU：专门为大型视觉语言模型设计

0条评论

暂时木有评论

猜你喜欢

查看更多商品

我要爆料我的收藏顶部

© Copyright2019-2024 | 版权所有：猎游人| 皖ICP备18025588号-1

快速登录