当前位置：首页 > 优惠 >大语言模型>文章详情

智谱AI推出新型视频理解模型CogVLM2-Video：更准确地理解和回答与视频内容相关的问题

推荐人：暴走AI| 商城: AI | 9个月前 (07-12)| 分类：大语言模型 | 热度：166 ℃

已关闭评论

智谱AI推出新型视频理解模型CogVLM2-Video：更准确地理解和回答与视频内容相关的问题

AI

智谱AI推出一种新型视频理解模型——CogVLM2-Video。该模型针对现有技术中的一些限制进行了改进，旨在更准确地理解和回答与视频内容相关的问题。CogVLM2-Video模型结合了新生成的数据集和现有的开放领域问答数据。该模型引入了多帧视频图像和时间戳作为编码器输入，通过这种方式，模型能够更好地理解视频内容及其时间维度。智谱AI表示，CogVLM2-Video在公共视频理解基准测试中达到了最新性能水平。此外，它在视频字幕生成和时间定位方面也展现出色的表现。

项目主页：https://cogvlm2-video.github.io
GitHub：https://github.com/THUDM/CogVLM2
Demo：http://36.103.203.44:7868

现有模型的局限

目前，大多数视频理解模型依赖于帧平均和视频标记压缩方法，这可能导致关键时间信息的丢失，影响模型对时间相关问题的准确回答。此外，一些专注于时间问答的数据集模型过于专化，限制了模型在更广泛领域内的问答能力。

CogVLM2-Video的创新之处

为了克服这些限制，智谱AI提出了一种基于视觉模型的自动时间定位数据构建方法。通过这种方法，生成了3万条与时间相关的视频问答数据，有效丰富了训练数据的多样性。

智谱AI推出新型视频理解模型CogVLM2-Video：更准确地理解和回答与视频内容相关的问题

CogVLM2-Video

声明： 猎游人每天为你带来最新的游戏和硬件打折情报，帮你精心挑选值得玩的游戏，让您的钱花的更值！本站信息大部分来自于网友爆料，如果您发现了优质的游戏或好的价格，不妨爆料给我们吧（谢绝任何商业爆料）！点此爆料

上一篇：动画图标集Unicorn icons：超过 100 个精致动画图标，提升操作界面的互动性

下一篇： DownloadYoutubeSubtitles：免费、快速的在线YouTube视频字幕下载工具

0条评论

暂时木有评论

猜你喜欢

查看更多商品

我要爆料我的收藏顶部

© Copyright2019-2024 | 版权所有：猎游人| 皖ICP备18025588号-1

快速登录