字节跳动推出新型大语言模型video-SALMONN,它专门设计用于增强视频理解能力,尤其是通过语音增强的音频-视觉(av-LLM)模型。简单来说,video-SALMONN就像一个超级智能的“视频助手”,它不仅能“看”懂视频里的画面,还能“听”懂视频中的对话、音乐和其他声音,甚至能理解人们的讲话内容。
- GitHub:https://github.com/bytedance/SALMONN
- 模型:https://huggingface.co/tsinghua-ee/SALMONN
例如,你有一个视频,里面有人正在讲解如何制作蛋糕,video-SALMONN能够理解这个人说的话(“现在我们要把面粉筛入鸡蛋糊中”),同时也能理解视频里的动作(“一个人正在筛面粉”),然后当你问它“视频中的人在做什么”的时候,它就能回答“视频中的人正在制作蛋糕”。
主要功能:
- 理解视频中的视觉帧序列、音频事件、音乐以及语音。
- 通过一种新颖的多分辨率因果Q-Former(MRC Q-Former)结构,实现对视频元素的精细时间信息的获取,同时保持对其他视频元素的高效处理。
主要特点:
- 第一个能够同时处理视频、语音和非语音音频输入的单一大型语言模型。
- 提出了多分辨率模态对齐器MRC Q-Former,为视频中的联合语音-音频-视觉信息提取奠定了基础。
- 引入了多样性损失和混合训练方案,以实现不同帧和模态之间的特征平衡。
工作原理:
- video-SALMONN使用预训练的音频-视觉编码器和大型语言模型,通过MRC Q-Former结构将它们连接起来,该结构在三个不同的时间尺度上对齐同步的音频-视觉输入特征与文本表示空间。
- 为了加强事件之间的时间因果关系,MRC Q-Former中包含了具有特殊因果掩码的因果自注意力结构。
- 为了避免视频中特定帧或单一模态的主导,video-SALMONN采用了提出的多样性损失和新的未配对音视频混合训练策略。
具体应用场景:
- 视频问答(Video QA):比如,观看一个教学视频后,video-SALMONN能够回答有关视频中教学内容的问题。
- 音频-视觉任务:例如,在观看带解说的纪录片时,video-SALMONN可以理解解说词和视频内容之间的关系。
- 视频内容的自动描述和总结:video-SALMONN可以生成视频内容的摘要或者描述,帮助用户快速了解视频主旨。
0条评论