DAAG:结合了大语言模型、视觉语言模型和扩散模型,以提高强化学习中具身代理的样本效率和迁移学习能力

分类:机器人 | 热度:36 ℃

伦敦帝国理工学院和谷歌 DeepMind的研究人员推出新框架Diffusion Augmented Agents(简称DAAG),它结合了大语言模型、视觉语言模型和扩散模型,以提高强化学习中具身代理(embodied agents)的样本效率和迁移学习能力。简单来说,DAAG是一个帮助机器人或虚拟代理更好地学习和适应新任务的系统。

  • 项目主页:https://sites.google.com/view/diffusion-augmented-agents

例如,我们有一个机器人,它需要学习如何根据指令将一个红色的立方体堆叠在绿色的立方体上。使用DAAG,机器人可以首先通过分解任务来学习识别和拾取红色立方体。然后,DAAG框架利用扩散模型增强机器人的观察,将之前关于拾取不同颜色立方体的经验转换为当前任务相关的经验,从而帮助机器人更快地学会将红色立方体放在绿色立方体上。这种方法不仅提高了学习效率,还使得机器人能够更好地泛化到新的或类似的任务中。

主要功能:

  1. 提高样本效率:DAAG通过使用扩散模型来增强过去的经验,使得代理在面对新任务时,能够更有效地利用有限的数据进行学习。
  2. 迁移学习:DAAG能够将代理在过去任务中获得的经验转移到新任务上,加速学习过程。
  3. 自主学习:DAAG不需要人类监督,可以自主地设置和评估子目标,即使在没有外部奖励的情况下也能进行。

主要特点:

  • Hindsight Experience Augmentation(HEA):一种技术,通过扩散模型将代理过去的经验重新标记,使其与目标指令一致,从而增强学习信号。
  • 自主性:大型语言模型协调整个过程,无需人类干预,适合终身学习场景。
  • 减少标注数据需求:通过在数据增强中使用合成样本来微调视觉语言模型,减少了对奖励标记数据的需求。

工作原理:

DAAG框架利用大型语言模型作为主控制器,指导视觉语言模型和扩散模型的工作。通过以下步骤实现:

  1. 任务分解:大型语言模型将复杂任务分解为一系列子目标。
  2. 经验重放:使用视觉语言模型和扩散模型来重新标记和增强过去的经验,使其与新任务相关。
  3. 数据增强:扩散模型用于在时间和几何上一致地转换视频,以对齐目标指令。
  4. 策略学习:通过自我模仿行为克隆(Self-Imitation Behavior Cloning)在存储的成功经验上训练策略。

具体应用场景:

  • 机器人操作:在模拟环境中,机器人可能需要学习如何根据自然语言指令堆叠不同颜色的积木。
  • 导航任务:在房间内导航并完成特定物品的拾取和放置任务。
  • 非抓取操作:例如,推动桌上的彩色块以达成目标配置。
声明: 猎游人 每天为你带来最新的游戏和硬件打折情报,帮你精心挑选值得玩的游戏,让您的钱花的更值!本站信息大部分来自于网友爆料,如果您发现了优质的游戏或好的价格,不妨爆料给我们吧(谢绝任何商业爆料)! 点此爆料

0条评论

Hi,您需要填写昵称和邮箱!
姓名 (必填)
邮箱 (必填)
网站

暂时木有评论