SlowFast-LLaVA

优惠 无需训练的视频大语言模型SlowFast-LLaVA:能够同时捕捉视频的细节空间语义和长时序时间上下文,而不会超出常用LLM的令牌预算

  • 无需训练的视频大语言模型SlowFast-LLaVA:能够同时捕捉视频的细节空间语义和长时序时间上下文,而不会超出常用LLM的令牌预算
    AI
  • 苹果推出一个名为SlowFast-LLaVA(简称SF-LLaVA)的新方法,它是一种无需训练的视频大语言模型(LLM)。SF-LLaVA能够同时捕捉视频的细节空间语义和长时序时间上下文,而不会超出常用LLM的令牌预算。这种方法通过为视频LLM设计双流输入(Slow和Fast路径),有效地聚合了采样视频帧的特征。 论文... 阅读全文