上海人工智能实验室、同济大学、南洋理工大学、北京大学和上海交通大学推出新型框架“Auto Cherry-Picker”(简称ACP),它能够自动从高质量的生成数据中学习,这些数据是由语言驱动生成的。例如,我们只需要给ACP一个简单的物品列表,比如“苹果、椅子、桌子”,它就能利用大语言模型生成详细的描述,并设计出合理的布局。然后,ACP会用现成的文本到图像的模型生成多张图片。最后,它使用一个精心设计的度量标准来筛选和优化这些生成的数据,确保它们是高质量的。
- 项目主页:https://yichengchen24.github.io/projects/autocherrypicker
- GitHub:https://github.com/yichengchen24/ACP
论文还展示了ACP在不同场景下的效果,例如在长尾分布的情况下,ACP生成的样本帮助模型在LVIS数据集上实现了APmask r(小物体的像素级准确度)5.2%的提高。此外,ACP在多模态感知和推理任务上也表现出色,例如在MME基准测试中提高了80.1分,在GQA基准测试中提高了0.4分。
主要功能和特点:
- 自动生成训练样本:ACP可以从简单的自然语言概念列表中自动生成训练样本。
- 多模态数据生成:它不仅生成图像,还生成与图像对应的详细描述和布局注释。
- 质量评估:ACP使用了一个新指标“Composite Layout and Image Score”(CLIS),来综合评估生成的布局和图像的质量。
工作原理:
- 语言模型生成描述:ACP首先使用大型语言模型根据给定的物品列表生成详细的场景描述。
- 文本到图像的转换:然后,它利用文本到图像的模型根据生成的描述创建图像。
- 质量筛选:通过CLIS度量标准来评估和筛选生成的图像和布局,确保它们的质量。
具体应用场景:
- 视觉感知任务:如图像分割、目标检测,ACP生成的训练样本可以提高这些任务的性能。
- 多模态训练:在需要结合图像和文本的任务中,如视觉问答(VQA),ACP可以提供高质量的训练数据。
- 长尾分布和数据不平衡问题:在某些类别样本数量很少的情况下,ACP可以通过调整类别比例来帮助解决这些问题。
0条评论