加州大学戴维斯分校、弗吉尼亚理工大学、香港中文大学、英伟达、Adobe Research 、复旦大学和Meta AI的研究人员推出一种新型大型视频语言模型Grounded-VideoLLM。这个模型特别擅长于理解视频中的精细时刻,并能够推理出具体发生在视频哪个时刻的事情。例如,你是一名视频编辑,正在寻找一个视频中所有“孩子第一次学会骑自行车”的片段。使用Grounded-VideoLLM,你只需输入描述这个动作的句子,模型就能快速定位到这个动作发生的精确时间点,并给出那段时间的视频片段。这样,你就不必手动浏览整个视频,大大节省了时间。
- GitHub:https://github.com/WHB139426/Grounded-Video-LLM
- 模型:https://huggingface.co/WHB139426/Grounded-Video-LLM
主要功能
- 精细时刻定位:能够识别视频中特定动作或事件的精确时间点。
- 视频推理:不仅知道视频中发生了什么,还能理解这些事件的时间顺序和逻辑关系。
主要特点
- 双流编码:模型通过分析视频帧之间的空间和时间关系来捕捉动态信息。
- 时间标记:使用特殊的时间标记来代表视频中的具体时间点,避免了处理连续数值的低效。
- 多阶段训练:从简单的视频描述任务开始,逐步过渡到复杂的时间定位任务。
工作原理
- 两流编码:视频的每一段被分为空间部分(关注外观)和时间部分(关注动作变化),分别进行编码。
- 时间标记:将视频均匀分成多个段落,并为每个段落定义一个时间标记,这些标记作为模型的词汇使用。
- 训练策略:采用分阶段训练,先让模型学会理解图片,再学会理解视频内容,最后学会理解视频中的具体时刻。
具体应用场景
- 视频内容分析:为视频自动生成详细描述,包括发生的动作和对应的时间。
- 视频问答:回答有关视频内容的具体问题,比如“视频中的汽车什么时候开始移动?”
- 视频编辑:帮助视频编辑人员快速定位视频中的关键片段。
- 视频监控:在安全监控视频中实时检测和响应特定事件。
总的来说,Grounded-VideoLLM通过先进的视频处理和时间理解能力,为视频内容的分析和检索提供了一个强大的工具。
0条评论