当前位置：首页 > 优惠 >大语言模型>文章详情

新型高分辨率多模态感知模型Griffon v2：在提高大型视觉语言模型（LVLMs）在处理高分辨率图像时的性能，特别是在复杂和密集场景中对细粒度对象的识别和定位

推荐人：暴走AI| 商城: AI | 1年前 (2024-03-15)| 分类：大语言模型 | 热度：372 ℃

已关闭评论

新型高分辨率多模态感知模型Griffon v2：在提高大型视觉语言模型（LVLMs）在处理高分辨率图像时的性能，特别是在复杂和密集场景中对细粒度对象的识别和定位

来自中国科学院自动化研究所基础模型研究中心、中国科学院大学人工智能学院、鹏城实验室和武汉人工智能研究院的研究团队推出新型高分辨率多模态感知模型Griffon v2，这个模型旨在提高大型视觉语言模型（LVLMs）在处理高分辨率图像时的性能，特别是在复杂和密集场景中对细粒度对象的识别和定位。Griffon v2通过视觉和文本提示灵活地引用对象，从而提高了模型在多种任务中的适用性和交互性。

主要功能和特点：

高分辨率输入支持： Griffon v2能够处理高达1K分辨率的图像，而不需要将图像分割成小块。
视觉-语言共同引用： 模型结合了视觉和语言的引用方式，使得用户可以通过局部裁剪的图像、文本描述或坐标来与模型交云。
多种交互模式： Griffon v2支持灵活的目标图像、自由形式文本甚至坐标的交互，提供了多样的交互能力。
先进的性能： 在多个定位相关任务上，包括区域级任务（如REC、短语定位和REG任务），Griffon v2展示了最先进的性能，并在对象检测和计数任务上超越了专家模型。

工作原理： Griffon v2使用一个高分辨率视觉编码器来直接提取图像特征，并通过一个简单轻量级的下采样投影器将这些特征压缩成视觉嵌入令牌。这些视觉嵌入令牌随后与文本嵌入令牌一起被送入大型语言模型（LLM），如LLaMA2-13B，进行进一步的融合和处理，生成所需的答案。此外，Griffon v2引入了一个即插即用的视觉令牌化器，使得模型能够通过视觉和文本引用来进行交互。

具体应用场景：