智谱AI推出新型视频理解模型CogVLM2-Video:更准确地理解和回答与视频内容相关的问题

分类:大语言模型 | 热度:46 ℃

智谱AI推出一种新型视频理解模型——CogVLM2-Video。该模型针对现有技术中的一些限制进行了改进,旨在更准确地理解和回答与视频内容相关的问题。CogVLM2-Video模型结合了新生成的数据集和现有的开放领域问答数据。该模型引入了多帧视频图像和时间戳作为编码器输入,通过这种方式,模型能够更好地理解视频内容及其时间维度。智谱AI表示,CogVLM2-Video在公共视频理解基准测试中达到了最新性能水平。此外,它在视频字幕生成和时间定位方面也展现出色的表现。

  • 项目主页:https://cogvlm2-video.github.io
  • GitHub:https://github.com/THUDM/CogVLM2
  • Demo:http://36.103.203.44:7868

现有模型的局限

目前,大多数视频理解模型依赖于帧平均和视频标记压缩方法,这可能导致关键时间信息的丢失,影响模型对时间相关问题的准确回答。此外,一些专注于时间问答的数据集模型过于专化,限制了模型在更广泛领域内的问答能力。

CogVLM2-Video的创新之处

为了克服这些限制,智谱AI提出了一种基于视觉模型的自动时间定位数据构建方法。通过这种方法,生成了3万条与时间相关的视频问答数据,有效丰富了训练数据的多样性。

智谱AI推出新型视频理解模型CogVLM2-Video:更准确地理解和回答与视频内容相关的问题

声明: 猎游人 每天为你带来最新的游戏和硬件打折情报,帮你精心挑选值得玩的游戏,让您的钱花的更值!本站信息大部分来自于网友爆料,如果您发现了优质的游戏或好的价格,不妨爆料给我们吧(谢绝任何商业爆料)! 点此爆料

0条评论

Hi,您需要填写昵称和邮箱!
姓名 (必填)
邮箱 (必填)
网站

暂时木有评论