智谱AI推出一种新型视频理解模型——CogVLM2-Video。该模型针对现有技术中的一些限制进行了改进,旨在更准确地理解和回答与视频内容相关的问题。CogVLM2-Video模型结合了新生成的数据集和现有的开放领域问答数据。该模型引入了多帧视频图像和时间戳作为编码器输入,通过这种方式,模型能够更好地理解视频内容及其时间维度。智谱AI表示,CogVLM2-Video在公共视频理解基准测试中达到了最新性能水平。此外,它在视频字幕生成和时间定位方面也展现出色的表现。
- 项目主页:https://cogvlm2-video.github.io
- GitHub:https://github.com/THUDM/CogVLM2
- Demo:http://36.103.203.44:7868
现有模型的局限
目前,大多数视频理解模型依赖于帧平均和视频标记压缩方法,这可能导致关键时间信息的丢失,影响模型对时间相关问题的准确回答。此外,一些专注于时间问答的数据集模型过于专化,限制了模型在更广泛领域内的问答能力。
CogVLM2-Video的创新之处
为了克服这些限制,智谱AI提出了一种基于视觉模型的自动时间定位数据构建方法。通过这种方法,生成了3万条与时间相关的视频问答数据,有效丰富了训练数据的多样性。
0条评论