阿里巴巴和中山大学的研究人员推出新型数据集和对比学习合成方法Img-Diff,它专注于为多模态大语言模型(MLLMs)提升细粒度图像识别能力。这个方法通过分析相似图像之间的物体差异,挑战模型去识别匹配和不同的组成部分。例如,你有两张看起来非常相似的图片,但它们之间有一些细微的差别,比如一张图片中的物体被替换了。Img-Diff就是用来训练和测试机器学习模型,让它们能够发现并描述这些细微差别的工具。
- GitHub:https://github.com/modelscope/data-juicer/tree/ImgDiff
- 数据:https://huggingface.co/datasets/datajuicer/Img-Diff
研究团队还展示了使用Img-Diff数据集对现有的最先进MLLMs(如MGM-7B)进行微调后,在多个图像差异和视觉问题回答任务中的性能提升。例如,在MMVP基准测试中,经过Img-Diff数据集训练的模型在性能上显著超过了其他一些最先进的模型。此外,论文还探讨了通过“物体移除”生成图像差异数据的替代方法,并进行了全面评估,以确认数据集的多样性、质量和鲁棒性。为了促进进一步的研究和发展,论文还开源了代码和数据集。
主要功能:
- 细粒度图像识别:增强模型识别图像中细微差异的能力。
- 对比学习:通过比较相似图像对,提高模型对图像差异的敏感性。
主要特点:
- 高质量数据集:Img-Diff是一个小而精的数据集,包含了通过物体替换生成的相似图像对。
- 差异区域生成器:识别图像对中物体差异的区域。
- 差异说明生成器:为这些差异区域生成详细的描述性文字。
工作原理:
- 图像对生成:使用文本到图像的生成模型和图像编辑技术,创建只有少数物体被替换的图像对。
- 差异区域生成:通过语义分割和图像相似度比较,识别图像对中物体差异的位置。
- 差异说明生成:利用MLLM为包含物体差异的区域生成描述性文本,并创建问题-答案对。
具体应用场景:
- 图像差异识别:在图像编辑、监控视频分析等领域,需要识别图像中的变化。
- 视觉问题回答:在需要对图像内容进行深入理解并回答问题的场景中,比如教育或辅助技术。
- 数据增强:为训练MLLMs提供高质量的细粒度图像识别数据。
0条评论