字节跳动推出新型大语言模型video-SALMONN:专门设计用于增强视频理解能力,尤其是通过语音增强的音频-视觉模型

分类:大语言模型 | 热度:44 ℃

字节跳动推出新型大语言模型video-SALMONN,它专门设计用于增强视频理解能力,尤其是通过语音增强的音频-视觉(av-LLM)模型。简单来说,video-SALMONN就像一个超级智能的“视频助手”,它不仅能“看”懂视频里的画面,还能“听”懂视频中的对话、音乐和其他声音,甚至能理解人们的讲话内容。

  • GitHub:https://github.com/bytedance/SALMONN
  • 模型:https://huggingface.co/tsinghua-ee/SALMONN

例如,你有一个视频,里面有人正在讲解如何制作蛋糕,video-SALMONN能够理解这个人说的话(“现在我们要把面粉筛入鸡蛋糊中”),同时也能理解视频里的动作(“一个人正在筛面粉”),然后当你问它“视频中的人在做什么”的时候,它就能回答“视频中的人正在制作蛋糕”。

主要功能

  • 理解视频中的视觉帧序列、音频事件、音乐以及语音。
  • 通过一种新颖的多分辨率因果Q-Former(MRC Q-Former)结构,实现对视频元素的精细时间信息的获取,同时保持对其他视频元素的高效处理。

主要特点

  • 第一个能够同时处理视频、语音和非语音音频输入的单一大型语言模型。
  • 提出了多分辨率模态对齐器MRC Q-Former,为视频中的联合语音-音频-视觉信息提取奠定了基础。
  • 引入了多样性损失和混合训练方案,以实现不同帧和模态之间的特征平衡。

工作原理

  • video-SALMONN使用预训练的音频-视觉编码器和大型语言模型,通过MRC Q-Former结构将它们连接起来,该结构在三个不同的时间尺度上对齐同步的音频-视觉输入特征与文本表示空间。
  • 为了加强事件之间的时间因果关系,MRC Q-Former中包含了具有特殊因果掩码的因果自注意力结构。
  • 为了避免视频中特定帧或单一模态的主导,video-SALMONN采用了提出的多样性损失和新的未配对音视频混合训练策略。

具体应用场景

  • 视频问答(Video QA):比如,观看一个教学视频后,video-SALMONN能够回答有关视频中教学内容的问题。
  • 音频-视觉任务:例如,在观看带解说的纪录片时,video-SALMONN可以理解解说词和视频内容之间的关系。
  • 视频内容的自动描述和总结:video-SALMONN可以生成视频内容的摘要或者描述,帮助用户快速了解视频主旨。
声明: 猎游人 每天为你带来最新的游戏和硬件打折情报,帮你精心挑选值得玩的游戏,让您的钱花的更值!本站信息大部分来自于网友爆料,如果您发现了优质的游戏或好的价格,不妨爆料给我们吧(谢绝任何商业爆料)! 点此爆料

0条评论

Hi,您需要填写昵称和邮箱!
姓名 (必填)
邮箱 (必填)
网站

暂时木有评论