当前位置：首页 > 优惠 >AI绘画>文章详情

新型数据集和对比学习合成方法Img-Diff：专注于为多模态大语言模型提升细粒度图像识别能力

推荐人：暴走AI| 商城: AI | 2年前 (2024-08-10)| 分类：AI绘画 | 热度：532 ℃

已关闭评论

新型数据集和对比学习合成方法Img-Diff：专注于为多模态大语言模型提升细粒度图像识别能力

阿里巴巴和中山大学的研究人员推出新型数据集和对比学习合成方法Img-Diff，它专注于为多模态大语言模型（MLLMs）提升细粒度图像识别能力。这个方法通过分析相似图像之间的物体差异，挑战模型去识别匹配和不同的组成部分。例如，你有两张看起来非常相似的图片，但它们之间有一些细微的差别，比如一张图片中的物体被替换了。Img-Diff就是用来训练和测试机器学习模型，让它们能够发现并描述这些细微差别的工具。

GitHub：https://github.com/modelscope/data-juicer/tree/ImgDiff
数据：https://huggingface.co/datasets/datajuicer/Img-Diff

研究团队还展示了使用Img-Diff数据集对现有的最先进MLLMs（如MGM-7B）进行微调后，在多个图像差异和视觉问题回答任务中的性能提升。例如，在MMVP基准测试中，经过Img-Diff数据集训练的模型在性能上显著超过了其他一些最先进的模型。此外，论文还探讨了通过“物体移除”生成图像差异数据的替代方法，并进行了全面评估，以确认数据集的多样性、质量和鲁棒性。为了促进进一步的研究和发展，论文还开源了代码和数据集。