上海人工智能实验室、上海交通大学、香港中文大学和同济大学的研究人员推出新基准测试MMBench-Video,它是一个为视频理解而设计的长期多镜头视频问答(VideoQA)评估工具。这个基准测试旨在全面评估大型视觉语言模型(LVLMs)在视频内容理解方面的能力。通过这样的基准测试,研究人员可以评估和比较不同LVLMs在视频理解方面的表现,识别它们的局限性,并指导未来的模型优化和算法改进。
- GitHub:https://github.com/open-compass/VLMEvalKit
例如,我们有一个关于足球比赛的视频,MMBench-Video可能包含这样的问题:“视频中哪个队伍首先得分?”或者“进球后球员的表情是怎样的?”模型需要观看视频并理解其内容,然后给出准确的答案。这些问题要求模型不仅要识别视频中的对象和事件,还要理解它们之间的关系和发生的顺序。
主要功能和特点:
- 长期多镜头视频:MMBench-Video包含来自YouTube的长视频,这些视频比传统视频QA数据集更长,更接近现实世界中的应用场景。
- 丰富问题类型:使用自由形式的问题,反映了实际用例,并且覆盖了从基础到复杂的多种视频任务。
- 人类标注:所有问题都是根据精心构建的能力分类法由人类标注,确保了问题的质量和多样性。
- 自动化评估:使用GPT-4进行自动化评估,提高了评估的准确性和稳健性。
工作原理:
MMBench-Video的工作原理包括以下几个步骤:
- 视频收集:从YouTube收集视频内容,选择与特定类别相符的长视频。
- 问题和答案的创建:根据建立的能力分类法,志愿者为视频创建问题和答案对。
- 质量控制:通过跨验证过程和LVLM(大型视觉语言模型)基础的过滤机制,确保问题和答案的准确性和相关性。
- 评估范式:提出一个3等级的评分方案,使用GPT-4作为评判模型,根据模型输出与真实答案之间的内容相似性进行评分。
具体应用场景:
- 视频内容理解:评估模型是否能够准确理解视频中的情境、情感和语言细节。
- 多模态研究:推动在多模态学习领域中对视频和语言模型的研究和应用。
- 算法开发和测试:为开发和测试新的视频理解算法提供了一个标准化的评估平台。
0条评论