当前位置：首页 > 优惠 >大语言模型>文章详情

新基准测试MMBench-Video：为视频理解而设计的长期多镜头视频问答（VideoQA）评估工具

推荐人：暴走AI| 商城: AI | 1年前 (2024-06-23)| 分类：大语言模型 | 热度：323 ℃

已关闭评论

新基准测试MMBench-Video：为视频理解而设计的长期多镜头视频问答（VideoQA）评估工具

AI

上海人工智能实验室、上海交通大学、香港中文大学和同济大学的研究人员推出新基准测试MMBench-Video，它是一个为视频理解而设计的长期多镜头视频问答（VideoQA）评估工具。这个基准测试旨在全面评估大型视觉语言模型（LVLMs）在视频内容理解方面的能力。通过这样的基准测试，研究人员可以评估和比较不同LVLMs在视频理解方面的表现，识别它们的局限性，并指导未来的模型优化和算法改进。

GitHub：https://github.com/open-compass/VLMEvalKit

例如，我们有一个关于足球比赛的视频，MMBench-Video可能包含这样的问题：“视频中哪个队伍首先得分？”或者“进球后球员的表情是怎样的？”模型需要观看视频并理解其内容，然后给出准确的答案。这些问题要求模型不仅要识别视频中的对象和事件，还要理解它们之间的关系和发生的顺序。

主要功能和特点：

长期多镜头视频：MMBench-Video包含来自YouTube的长视频，这些视频比传统视频QA数据集更长，更接近现实世界中的应用场景。
丰富问题类型：使用自由形式的问题，反映了实际用例，并且覆盖了从基础到复杂的多种视频任务。
人类标注：所有问题都是根据精心构建的能力分类法由人类标注，确保了问题的质量和多样性。
自动化评估：使用GPT-4进行自动化评估，提高了评估的准确性和稳健性。

工作原理：

MMBench-Video的工作原理包括以下几个步骤：

视频收集：从YouTube收集视频内容，选择与特定类别相符的长视频。
问题和答案的创建：根据建立的能力分类法，志愿者为视频创建问题和答案对。
质量控制：通过跨验证过程和LVLM（大型视觉语言模型）基础的过滤机制，确保问题和答案的准确性和相关性。
评估范式：提出一个3等级的评分方案，使用GPT-4作为评判模型，根据模型输出与真实答案之间的内容相似性进行评分。

具体应用场景：

视频内容理解：评估模型是否能够准确理解视频中的情境、情感和语言细节。
多模态研究：推动在多模态学习领域中对视频和语言模型的研究和应用。
算法开发和测试：为开发和测试新的视频理解算法提供了一个标准化的评估平台。

MMBench-Video

声明： 猎游人每天为你带来最新的游戏和硬件打折情报，帮你精心挑选值得玩的游戏，让您的钱花的更值！本站信息大部分来自于网友爆料，如果您发现了优质的游戏或好的价格，不妨爆料给我们吧（谢绝任何商业爆料）！点此爆料

上一篇：新框架Prism：专门设计用来解耦和评估视觉语言模型的两个关键能力：感知能力和推理能力

下一篇：新方法Whiteboard-of-Thought（思维白板）：提升多模态大语言模型在视觉推理方面的能力

0条评论

暂时木有评论

猜你喜欢

查看更多商品

我要爆料我的收藏顶部

© Copyright2019-2024 | 版权所有：猎游人| 皖ICP备18025588号-1

快速登录