当前位置：首页 > 优惠 >大语言模型>文章详情

字节跳动推出新型大语言模型video-SALMONN：专门设计用于增强视频理解能力，尤其是通过语音增强的音频-视觉模型

推荐人：暴走AI| 商城: AI | 1年前 (2024-06-25)| 分类：大语言模型 | 热度：285 ℃

已关闭评论

字节跳动推出新型大语言模型video-SALMONN：专门设计用于增强视频理解能力，尤其是通过语音增强的音频-视觉模型

字节跳动推出新型大语言模型video-SALMONN，它专门设计用于增强视频理解能力，尤其是通过语音增强的音频-视觉（av-LLM）模型。简单来说，video-SALMONN就像一个超级智能的“视频助手”，它不仅能“看”懂视频里的画面，还能“听”懂视频中的对话、音乐和其他声音，甚至能理解人们的讲话内容。

GitHub：https://github.com/bytedance/SALMONN
模型：https://huggingface.co/tsinghua-ee/SALMONN

例如，你有一个视频，里面有人正在讲解如何制作蛋糕，video-SALMONN能够理解这个人说的话（“现在我们要把面粉筛入鸡蛋糊中”），同时也能理解视频里的动作（“一个人正在筛面粉”），然后当你问它“视频中的人在做什么”的时候，它就能回答“视频中的人正在制作蛋糕”。

主要功能：

理解视频中的视觉帧序列、音频事件、音乐以及语音。
通过一种新颖的多分辨率因果Q-Former（MRC Q-Former）结构，实现对视频元素的精细时间信息的获取，同时保持对其他视频元素的高效处理。

主要特点：

第一个能够同时处理视频、语音和非语音音频输入的单一大型语言模型。
提出了多分辨率模态对齐器MRC Q-Former，为视频中的联合语音-音频-视觉信息提取奠定了基础。
引入了多样性损失和混合训练方案，以实现不同帧和模态之间的特征平衡。

工作原理：

video-SALMONN使用预训练的音频-视觉编码器和大型语言模型，通过MRC Q-Former结构将它们连接起来，该结构在三个不同的时间尺度上对齐同步的音频-视觉输入特征与文本表示空间。
为了加强事件之间的时间因果关系，MRC Q-Former中包含了具有特殊因果掩码的因果自注意力结构。
为了避免视频中特定帧或单一模态的主导，video-SALMONN采用了提出的多样性损失和新的未配对音视频混合训练策略。

具体应用场景：