优惠 视频大语言模型VideoLLaMA 2:为了提升视频和音频导向任务中的空间-时间建模和音频理解能力而设计
5个月前 (06-18)AI
阿里巴巴集团达摩院推出视频大语言模型VideoLLaMA 2,它是为了提升视频和音频导向任务中的空间-时间建模和音频理解能力而设计的。例如,你想让一个人工智能系统观看一段视频并回答有关视频内容的问题,或者描述视频中的场景,这就需要模型能够理解视频中的运动、物体以及它们随时间的变化,同时还得理解视频中的音频信息。Vide... 阅读全文