LMMs 实验室团队、 新加坡南洋理工大学和新加坡科技大学的研究人员推出Long Video Assistant(LongVA)模型,让大型多模态模型(LMMs)更好地理解和处理非常长的视频序列。这里的“长视频”指的是视频帧数很多,可能达到数千帧。以往的模型在处理这类视频时会遇到困难,因为它们的视觉编码器会产生大量的视觉标记(tokens),导致难以处理和理解。
- 项目主页:https://lmms-lab.github.io/posts/longva
- GitHub:https://github.com/EvolvingLMMs-Lab/LongVA
- 模型:https://huggingface.co/collections/lmms-lab/longva-667538e09329dbc7ea498057
- Demo:https://longva-demo.lmms-lab.com
例如,有一个视频,记录了一个持续数小时的婚礼。以往的模型可能难以处理这么多帧的视频,并且难以理解视频中的所有细节。但是,使用这篇论文中提出的技术,模型可以更有效地处理这个长视频,甚至能够在不需要额外训练的情况下,准确回答有关视频中特定瞬间的问题,比如“新娘手中的花是什么颜色?”或“婚礼上出现的第一辆婚车是什么颜色?”。
主要功能:
- 长视频理解:使模型能够理解和分析长视频中的信息。
- 长文本背景转移:通过扩展语言模型的上下文长度,使其能够处理更多的视觉标记。
主要特点:
- 长上下文转移:模型利用扩展的语言模型上下文来增强视觉模态的理解能力。
- 无需长视频训练:通过仅在文本上进行长上下文训练,就能实现对长视频的有效理解。
- V-NIAH 基准测试:开发了一种新的合成长视觉基准测试,用于评估模型在长上下文中检索视觉信息的能力。
工作原理:
- 长文本训练:首先,研究者们对语言模型进行扩展训练,使其能够处理更长的文本序列。
- 模态对齐:然后,将这个扩展了上下文长度的语言模型作为多模态模型的骨干,通过模态对齐和视觉指令调整,使模型能够处理视觉信息。
- UniRes 编码方案:提出了一种统一的视频和图像编码方案,将视频视为扩展的图像,增强了图像和视频之间的能力融合。
具体应用场景:
- 视频内容分析:例如,分析监控视频中的长时间活动或事件。
- 视频问答系统:在视频内容理解的基础上,提供关于视频内容的问答服务。
- 视频摘要生成:对长视频内容进行理解和总结,生成视频摘要或关键信息点。
0条评论