当前位置：首页 > 优惠 >大语言模型>文章详情

新型多模态大语言模型VideoLISA：专为视频领域内基于语言指令的推理分割任务而设计

推荐人：暴走AI| 商城: AI | 9个月前 (10-05)| 分类：大语言模型 | 热度：278 ℃

已关闭评论

新型多模态大语言模型VideoLISA：专为视频领域内基于语言指令的推理分割任务而设计

新加坡国立大学和亚马逊的研究人员推出新型多模态大语言模型VideoLISA，它专为视频领域内基于语言指令的推理分割任务而设计。VideoLISA结合了大型语言模型的推理能力和对世界知识的掌握，并借助Segment Anything Model（SAM）生成基于语言指令的视频内的时间一致性分割掩码。例如，你是一名视频编辑，需要从一段视频中分割出所有出现猫的片段。你可以给VideoLISA一个简单的文本指令，如“请分割视频中所有的猫”，模型将自动处理视频并生成包含猫的区域的分割掩码。

主要功能：

VideoLISA的主要功能是根据用户提供的自然语言指令，在视频中对目标对象进行分割。这包括理解视频内容的时间动态性以及跨帧的一致性分割。

主要特点：

稀疏密集采样策略：为了在计算约束内平衡时间上下文和空间细节，VideoLISA采用了一种稀疏密集采样策略，通过均匀采样一组密集帧（保留全分辨率特征）和对其余帧进行降采样处理。
One-Token-Seg-All方法：通过设计一个特殊的<TRK>标记，模型能够在多帧视频中分割和跟踪对象。这种方法使得模型能够将视频中的对象信息统一封装，简化了处理多帧提示的复杂性。

工作原理：

VideoLISA首先通过视觉tokenizer将视频帧编码成视觉token，然后与文本token一起输入到大型语言模型中。模型使用一个特殊的<TRK>标记来提示掩码解码器产生分割掩码。在训练过程中，<TRK>标记被训练为同时分割多个帧，以防止模型仅关注某一帧的空间信息。在推理过程中，单个<TRK>标记可以用于整个视频的分割和跟踪。

具体应用场景：