来自中国科学院自动化研究所基础模型研究中心、中国科学院大学人工智能学院、鹏城实验室和武汉人工智能研究院的研究团队推出新型高分辨率多模态感知模型Griffon v2,这个模型旨在提高大型视觉语言模型(LVLMs)在处理高分辨率图像时的性能,特别是在复杂和密集场景中对细粒度对象的识别和定位。Griffon v2通过视觉和文本提示灵活地引用对象,从而提高了模型在多种任务中的适用性和交互性。
主要功能和特点:
- 高分辨率输入支持: Griffon v2能够处理高达1K分辨率的图像,而不需要将图像分割成小块。
- 视觉-语言共同引用: 模型结合了视觉和语言的引用方式,使得用户可以通过局部裁剪的图像、文本描述或坐标来与模型交云。
- 多种交互模式: Griffon v2支持灵活的目标图像、自由形式文本甚至坐标的交互,提供了多样的交互能力。
- 先进的性能: 在多个定位相关任务上,包括区域级任务(如REC、短语定位和REG任务),Griffon v2展示了最先进的性能,并在对象检测和计数任务上超越了专家模型。
工作原理: Griffon v2使用一个高分辨率视觉编码器来直接提取图像特征,并通过一个简单轻量级的下采样投影器将这些特征压缩成视觉嵌入令牌。这些视觉嵌入令牌随后与文本嵌入令牌一起被送入大型语言模型(LLM),如LLaMA2-13B,进行进一步的融合和处理,生成所需的答案。此外,Griffon v2引入了一个即插即用的视觉令牌化器,使得模型能够通过视觉和文本引用来进行交互。
具体应用场景:
- 图形用户界面(GUI)代理: Griffon v2可以用于GUI自动化,通过视觉和语言提示来识别和操作界面中的元素。
- 计数任务: 在需要对图像中的多个对象进行计数的场景中,如农业监测或库存管理,Griffon v2能够提供准确的计数结果。
- 视觉问答(VQA): Griffon v2可以用于视觉问答系统,用户可以通过指向图像中的特定区域并提出问题,模型能够理解并回答问题。
- 细粒度对象检测: 在需要识别和定位图像中细小对象的应用中,如医学影像分析或卫星图像处理,Griffon v2能够提供高精度的检测能力。
总的来说,Griffon v2是一个强大的多模态模型,它通过高分辨率输入和视觉-语言共同引用的方式,显著提高了在复杂场景中对细粒度对象的感知和定位能力。
0条评论