北京通用人工智能国家重点实验室、 清华大学自动化系、北京大学人工智能研究院、加州大学洛杉矶分校和北京大学电子电气与计算机学院的研究人员推出Ag2Manip框架,机器人系统自主学习新的操作技能,特别是在没有特定领域示范的情况下。这项研究的目标是提高机器人在制造、服务自动化等行业的自主性和适应性。
例如,我们有一个机器人,需要它在没有人类直接指导的情况下学习如何把一个杯子从一个桌子移动到另一个桌子。使用Ag2Manip,机器人可以通过观看人类移动物体的视频来学习这一技能。然后,机器人在模拟环境中尝试执行这一任务,通过不断的尝试和错误来改进其动作。最终,机器人能够在现实世界中成功地模仿这一操作,即使在不同的环境布局或不同大小和形状的杯子面前也能成功完成任务。
主要功能:
- 使机器人能够学习并执行新的操作任务。
- 减少对专家示范的依赖。
- 提高机器人在真实世界中模仿学习的成功率。
主要特点:
- 代理无关的视觉表示:通过从人类操作视频中学习,同时模糊机器人和人类的特征,以增强泛化能力。
- 代理无关的动作表示:将机器人的运动抽象为一个通用代理的动作,简化了学习过程。
- 强化学习和奖励塑造:使用强化学习框架和为任务量身定制的奖励函数来指导机器人学习。
工作原理:
Ag2Manip(Agent-Agnostic representations for Manipulation)框架通过以下步骤工作:
- 学习代理无关的视觉表示:通过处理人类演示视频,移除人类和机器人的具体形象,生成一个代理无关的视觉数据集。
- 学习代理无关的动作表示:将机器人的动作抽象化,通过探索和交互两个阶段来学习如何操作环境。
- 强化学习和奖励塑造:使用模型自由的强化学习框架和重要性加权奖励函数来促进策略学习,以达到目标状态。
- 机器人特定动作重定向:将代理的动作转换为机器人可以执行的动作,通过逆运动学(IK)来实现。
具体应用场景:
例如,在厨房环境中,一个机器人可能需要学习如何打开微波炉、移动水壶或关闭橱柜门。传统的方法可能需要大量的专家示范来指导机器人学习这些技能。而Ag2Manip允许机器人通过观看人类执行任务的视频来学习,然后自主地在模拟环境中练习这些技能,并最终在现实世界中成功执行这些任务。
0条评论