新加坡国立大学和亚马逊的研究人员推出新型多模态大语言模型VideoLISA,它专为视频领域内基于语言指令的推理分割任务而设计。VideoLISA结合了大型语言模型的推理能力和对世界知识的掌握,并借助Segment Anything Model(SAM)生成基于语言指令的视频内的时间一致性分割掩码。例如,你是一名视频编辑,需要从一段视频中分割出所有出现猫的片段。你可以给VideoLISA一个简单的文本指令,如“请分割视频中所有的猫”,模型将自动处理视频并生成包含猫的区域的分割掩码。
主要功能:
VideoLISA的主要功能是根据用户提供的自然语言指令,在视频中对目标对象进行分割。这包括理解视频内容的时间动态性以及跨帧的一致性分割。
主要特点:
- 稀疏密集采样策略:为了在计算约束内平衡时间上下文和空间细节,VideoLISA采用了一种稀疏密集采样策略,通过均匀采样一组密集帧(保留全分辨率特征)和对其余帧进行降采样处理。
- One-Token-Seg-All方法:通过设计一个特殊的<TRK>标记,模型能够在多帧视频中分割和跟踪对象。这种方法使得模型能够将视频中的对象信息统一封装,简化了处理多帧提示的复杂性。
工作原理:
VideoLISA首先通过视觉tokenizer将视频帧编码成视觉token,然后与文本token一起输入到大型语言模型中。模型使用一个特殊的<TRK>标记来提示掩码解码器产生分割掩码。在训练过程中,<TRK>标记被训练为同时分割多个帧,以防止模型仅关注某一帧的空间信息。在推理过程中,单个<TRK>标记可以用于整个视频的分割和跟踪。
具体应用场景:
- 视频内容审核:自动识别视频中的特定对象,如不适宜的内容,以进行审核或过滤。
- 视频监控分析:在安全监控领域,根据指令自动检测和跟踪视频中的人物或物体。
- 视频编辑和增强:根据用户的文本描述自动编辑视频,如添加特效或调整视频中的特定对象。
总的来说,VideoLISA通过其创新的稀疏密集采样策略和One-Token-Seg-All方法,在视频对象分割任务中表现出色,尤其是在需要复杂推理、时间理解和对象跟踪的场景中。
0条评论