新型多模态大语言模型VideoLISA:专为视频领域内基于语言指令的推理分割任务而设计

分类:大语言模型 | 热度:88 ℃

新加坡国立大学和亚马逊的研究人员推出新型多模态大语言模型VideoLISA,它专为视频领域内基于语言指令的推理分割任务而设计。VideoLISA结合了大型语言模型的推理能力和对世界知识的掌握,并借助Segment Anything Model(SAM)生成基于语言指令的视频内的时间一致性分割掩码。例如,你是一名视频编辑,需要从一段视频中分割出所有出现猫的片段。你可以给VideoLISA一个简单的文本指令,如“请分割视频中所有的猫”,模型将自动处理视频并生成包含猫的区域的分割掩码。

主要功能:

VideoLISA的主要功能是根据用户提供的自然语言指令,在视频中对目标对象进行分割。这包括理解视频内容的时间动态性以及跨帧的一致性分割。

主要特点:

  1. 稀疏密集采样策略:为了在计算约束内平衡时间上下文和空间细节,VideoLISA采用了一种稀疏密集采样策略,通过均匀采样一组密集帧(保留全分辨率特征)和对其余帧进行降采样处理。
  2. One-Token-Seg-All方法:通过设计一个特殊的<TRK>标记,模型能够在多帧视频中分割和跟踪对象。这种方法使得模型能够将视频中的对象信息统一封装,简化了处理多帧提示的复杂性。

工作原理:

VideoLISA首先通过视觉tokenizer将视频帧编码成视觉token,然后与文本token一起输入到大型语言模型中。模型使用一个特殊的<TRK>标记来提示掩码解码器产生分割掩码。在训练过程中,<TRK>标记被训练为同时分割多个帧,以防止模型仅关注某一帧的空间信息。在推理过程中,单个<TRK>标记可以用于整个视频的分割和跟踪。

具体应用场景:

  1. 视频内容审核:自动识别视频中的特定对象,如不适宜的内容,以进行审核或过滤。
  2. 视频监控分析:在安全监控领域,根据指令自动检测和跟踪视频中的人物或物体。
  3. 视频编辑和增强:根据用户的文本描述自动编辑视频,如添加特效或调整视频中的特定对象。

总的来说,VideoLISA通过其创新的稀疏密集采样策略和One-Token-Seg-All方法,在视频对象分割任务中表现出色,尤其是在需要复杂推理、时间理解和对象跟踪的场景中。

声明: 猎游人 每天为你带来最新的游戏和硬件打折情报,帮你精心挑选值得玩的游戏,让您的钱花的更值!本站信息大部分来自于网友爆料,如果您发现了优质的游戏或好的价格,不妨爆料给我们吧(谢绝任何商业爆料)! 点此爆料

0条评论

Hi,您需要填写昵称和邮箱!
姓名 (必填)
邮箱 (必填)
网站

暂时木有评论