新型框架ACP:能够自动从高质量的生成数据中学习,这些数据是由语言驱动生成的

分类:大语言模型 | 热度:58 ℃

上海人工智能实验室、同济大学、南洋理工大学、北京大学和上海交通大学推出新型框架“Auto Cherry-Picker”(简称ACP),它能够自动从高质量的生成数据中学习,这些数据是由语言驱动生成的。例如,我们只需要给ACP一个简单的物品列表,比如“苹果、椅子、桌子”,它就能利用大语言模型生成详细的描述,并设计出合理的布局。然后,ACP会用现成的文本到图像的模型生成多张图片。最后,它使用一个精心设计的度量标准来筛选和优化这些生成的数据,确保它们是高质量的。

  • 项目主页:https://yichengchen24.github.io/projects/autocherrypicker
  • GitHub:https://github.com/yichengchen24/ACP

论文还展示了ACP在不同场景下的效果,例如在长尾分布的情况下,ACP生成的样本帮助模型在LVIS数据集上实现了APmask r(小物体的像素级准确度)5.2%的提高。此外,ACP在多模态感知和推理任务上也表现出色,例如在MME基准测试中提高了80.1分,在GQA基准测试中提高了0.4分。

主要功能和特点:

  1. 自动生成训练样本:ACP可以从简单的自然语言概念列表中自动生成训练样本。
  2. 多模态数据生成:它不仅生成图像,还生成与图像对应的详细描述和布局注释。
  3. 质量评估:ACP使用了一个新指标“Composite Layout and Image Score”(CLIS),来综合评估生成的布局和图像的质量。

工作原理:

  1. 语言模型生成描述:ACP首先使用大型语言模型根据给定的物品列表生成详细的场景描述。
  2. 文本到图像的转换:然后,它利用文本到图像的模型根据生成的描述创建图像。
  3. 质量筛选:通过CLIS度量标准来评估和筛选生成的图像和布局,确保它们的质量。

具体应用场景:

  • 视觉感知任务:如图像分割、目标检测,ACP生成的训练样本可以提高这些任务的性能。
  • 多模态训练:在需要结合图像和文本的任务中,如视觉问答(VQA),ACP可以提供高质量的训练数据。
  • 长尾分布和数据不平衡问题:在某些类别样本数量很少的情况下,ACP可以通过调整类别比例来帮助解决这些问题。
ACP
声明: 猎游人 每天为你带来最新的游戏和硬件打折情报,帮你精心挑选值得玩的游戏,让您的钱花的更值!本站信息大部分来自于网友爆料,如果您发现了优质的游戏或好的价格,不妨爆料给我们吧(谢绝任何商业爆料)! 点此爆料

0条评论

Hi,您需要填写昵称和邮箱!
姓名 (必填)
邮箱 (必填)
网站

暂时木有评论