当前位置：首页 > 优惠 >大语言模型>文章详情

智谱AI和清华大学联合推出新型视觉语言模型家族CogVLM2：专门设计用于理解和处理图像与视频内容

推荐人：暴走AI| 商城: AI | 7个月前 (08-30)| 分类：大语言模型 | 热度：74 ℃

已关闭评论

智谱AI和清华大学联合推出新型视觉语言模型家族CogVLM2：专门设计用于理解和处理图像与视频内容

智谱AI和清华大学联合推出新型视觉语言模型家族CogVLM2，它们专门设计用于理解和处理图像与视频内容。简单来说，这些模型就像是拥有超凡视觉能力的智能助手，它们不仅能“看到”图像和视频里的内容，还能理解这些内容背后的含义，并根据这些理解来回答问题或者执行任务。

GitHub：https://github.com/THUDM/CogVLM2
模型：https://huggingface.co/collections/THUDM/cogvlm2-6645f36a29948b67dc4eef75

CogVLM2系列模型包括CogVLM2、CogVLM2-Video和GLM-4V。作为图像理解模型，CogVLM2继承了视觉专家架构，并在预训练和微调阶段改进了训练方法，支持最高达1344x1344像素的输入分辨率。作为视频理解模型，CogVLM2-Video集成了多帧输入与时戳，并提出了自动化的时序定位数据构建。

智谱AI推出了新一代的 CogVLM2 系列模型并开源了两款基于 Meta-Llama-3-8B-Instruct 开源模型。与上一代的 CogVLM 开源模型相比，CogVLM2 系列开源模型具有以下改进：

在许多关键指标上有了显著提升，例如 TextVQA, DocVQA。
支持 8K 文本长度。
支持高达 1344 * 1344 的图像分辨率。
提供支持中英文双语的开源模型版本。

智谱AI和清华大学联合推出新型视觉语言模型家族CogVLM2：专门设计用于理解和处理图像与视频内容

主要功能和特点：

高分辨率图像理解：CogVLM2能够处理高达1344×1344像素的高分辨率图像，这意味着它可以捕捉到非常细致的图像细节，比如在精细的图片识别或者文档理解中就非常有用。
视频理解：CogVLM2-Video模型不仅能处理静态图像，还能理解视频内容，包括视频里的动作、场景变换等。
自动化时间定位：在视频理解中，CogVLM2-Video能够自动识别视频中的关键时间点，比如某个重要动作发生的具体时间。
多模态输入：这些模型不仅处理视觉信息，还能结合文本信息，实现图文结合的理解。
开源：CogVLM2家族的所有模型都是开源的，这意味着研究人员和开发者可以自由地访问、使用和改进这些模型。

工作原理： CogVLM2家族的模型通过结合视觉转换器（比如Vision Transformer，ViT）和大型语言模型来工作。视觉转换器负责将图像转换成模型可以理解的特征，然后这些特征与语言模型结合，使模型能够理解图像内容并用语言来描述或者回答有关图像的问题。对于视频，模型会处理视频的每一帧，并且利用时间戳信息来理解视频随时间变化的内容。

具体应用场景：