当前位置：首页 > 优惠 >大语言模型>文章详情

多模态模型LongVA:更好地理解和处理非常长的视频序列

推荐人：暴走AI| 商城: AI | 1年前 (2024-06-25)| 分类：大语言模型 | 热度：215 ℃

已关闭评论

多模态模型LongVA:更好地理解和处理非常长的视频序列

AI

LMMs 实验室团队、新加坡南洋理工大学和新加坡科技大学的研究人员推出Long Video Assistant（LongVA）模型，让大型多模态模型（LMMs）更好地理解和处理非常长的视频序列。这里的“长视频”指的是视频帧数很多，可能达到数千帧。以往的模型在处理这类视频时会遇到困难，因为它们的视觉编码器会产生大量的视觉标记（tokens），导致难以处理和理解。

项目主页：https://lmms-lab.github.io/posts/longva
GitHub：https://github.com/EvolvingLMMs-Lab/LongVA
模型：https://huggingface.co/collections/lmms-lab/longva-667538e09329dbc7ea498057
Demo：https://longva-demo.lmms-lab.com

例如，有一个视频，记录了一个持续数小时的婚礼。以往的模型可能难以处理这么多帧的视频，并且难以理解视频中的所有细节。但是，使用这篇论文中提出的技术，模型可以更有效地处理这个长视频，甚至能够在不需要额外训练的情况下，准确回答有关视频中特定瞬间的问题，比如“新娘手中的花是什么颜色？”或“婚礼上出现的第一辆婚车是什么颜色？”。

多模态模型LongVA:更好地理解和处理非常长的视频序列

主要功能：

长视频理解：使模型能够理解和分析长视频中的信息。
长文本背景转移：通过扩展语言模型的上下文长度，使其能够处理更多的视觉标记。

主要特点：

长上下文转移：模型利用扩展的语言模型上下文来增强视觉模态的理解能力。
无需长视频训练：通过仅在文本上进行长上下文训练，就能实现对长视频的有效理解。
V-NIAH 基准测试：开发了一种新的合成长视觉基准测试，用于评估模型在长上下文中检索视觉信息的能力。

工作原理：

长文本训练：首先，研究者们对语言模型进行扩展训练，使其能够处理更长的文本序列。
模态对齐：然后，将这个扩展了上下文长度的语言模型作为多模态模型的骨干，通过模态对齐和视觉指令调整，使模型能够处理视觉信息。
UniRes 编码方案：提出了一种统一的视频和图像编码方案，将视频视为扩展的图像，增强了图像和视频之间的能力融合。

具体应用场景：

视频内容分析：例如，分析监控视频中的长时间活动或事件。
视频问答系统：在视频内容理解的基础上，提供关于视频内容的问答服务。
视频摘要生成：对长视频内容进行理解和总结，生成视频摘要或关键信息点。

LongVA 多模态模型

声明： 猎游人每天为你带来最新的游戏和硬件打折情报，帮你精心挑选值得玩的游戏，让您的钱花的更值！本站信息大部分来自于网友爆料，如果您发现了优质的游戏或好的价格，不妨爆料给我们吧（谢绝任何商业爆料）！点此爆料

上一篇： 4K4DGen：将静态全景图像转换成4K分辨率的4D（即具有时间和空间维度）动态场景

下一篇：全面基准测试工具VideoHallucer：专门用来检测和评估LVLMs在视频理解任务中的幻觉问题

0条评论

暂时木有评论

猜你喜欢

查看更多商品

我要爆料我的收藏顶部

© Copyright2019-2024 | 版权所有：猎游人| 皖ICP备18025588号-1

快速登录