当前位置：首页 > 优惠 >大语言模型>文章详情

新型视觉质量比较模型Co-Instruct：对多张图片进行开放性的质量比较，提供详细的推理过程，而不仅仅是给出一个简单的质量评分

推荐人：暴走AI| 商城: AI | 2年前 (2024-02-27)| 分类：大语言模型 | 热度：834 ℃

已关闭评论

新型视觉质量比较模型Co-Instruct：对多张图片进行开放性的质量比较，提供详细的推理过程，而不仅仅是给出一个简单的质量评分

这篇论文介绍了一个名为Co-Instruct的新型视觉质量比较模型。这个模型的目标是能够对多张图片进行开放性的质量比较，提供详细的推理过程，而不仅仅是给出一个简单的质量评分。Co-Instruct模型通过比较设置（例如成对选择、列表排序）来评估图像质量，这种方法可以标准化不同观察者之间的评估标准，并提供更明确的响应。

论文地址：https://arxiv.org/abs/2402.16641

模型地址：https://huggingface.co/q-future/co-instruct

主要功能： Co-Instruct模型能够回答关于图像质量的开放性问题，并提供详细的推理。例如，它可以根据用户的问题，比较两幅或多幅图像的质量，并解释为什么一幅图像的质量比另一幅更好或更差。

主要特点：

开放性问题处理： Co-Instruct能够处理开放性问题，这意味着它可以回答关于图像质量的任何问题，而不仅仅是预设的问题。
详细推理： 除了直接回答问题，Co-Instruct还能提供详细的推理过程，解释其判断的依据。
多图像比较： 与以往的模型不同，Co-Instruct能够比较多于两张的图像，这在以往的研究中是不常见的。

工作原理： Co-Instruct模型的训练数据集Co-Instruct-562K是通过两种方式构建的：一种是将单个图像的人类质量描述合并（Merge2Compare），另一种是利用GPT-4V模型对未标记数据的响应（Teach2Compare）。模型通过学习这些数据，学会了如何比较图像质量并提供详细的解释。为了适应多图像场景，Co-Instruct采用了视觉抽象器结构来减少视觉标记的数量，并将视觉和文本嵌入以交错的格式传递给语言解码器。

具体应用场景： Co-Instruct模型可以应用于多种需要图像质量比较的场景，例如：