清华大学研究院、上海交通大学、香港大学、北京大学、上海启智研究院和上海人工智能实验室的研究人员推出Maniwhere,这是一个针对视觉强化学习的通用框架,使训练后的机器人策略能够在多种视觉干扰类型的组合中实现泛化。具体而言,研究团队引入了一种结合空间变换网络(STN)模块的多视图表示学习方法,用于捕获不同视角之间的共享语义信息和对应关系。此外,研究团队采用基于课程的随机化和增强方法来稳定强化学习训练过程并加强视觉泛化能力。为了展示Maniwhere的有效性,研究团队精心设计了8项任务,涵盖了关节物体、双手和灵巧手操控任务,展示了Maniwhere在3个硬件平台上的强大视觉泛化能力和仿真到实际的转移能力。
- 项目主页:https://gemcollector.github.io/maniwhere
例如,你有一个机器人,它在一个白色桌面上经过训练,学会了拿起红色的立方体。当你把这个立方体换成蓝色或者改变桌面的颜色,甚至从不同的摄像头角度观察时,机器人可能就不知道如何执行任务了。Maniwhere 通过训练机器人理解不同视角和物体外观变化下的共同特征,使得机器人即使在面对这些变化时也能准确地拿起立方体。这样,机器人就可以在更广泛的环境和条件下工作,而不仅仅是在训练时见过的特定设置中。
主要功能
- 视觉泛化:Maniwhere 训练机器人,使其能够在不同的视觉环境中保持性能,无论是摄像头角度变化、物体外观变化还是光照条件变化。
- 零样本学习:即机器人能够在没有经过针对特定环境训练的情况下,直接在真实世界中应用其学习到的技能。
主要特点
- 多视角表示学习:通过分析不同视角下的图像,机器人能够学习到共享的语义信息和不同视角间的对应关系。
- 空间变换网络(STN):增强了机器人对空间信息的感知能力,使其能够更好地处理视角变化。
- 基于课程的随机化和增强方法:稳定了强化学习训练过程,并加强了视觉泛化能力。
工作原理
- 多视角输入:机器人从两个不同视角的摄像头获取图像。
- 视觉编码器:包含STN模块,用于提取图像特征并进行空间变换。
- 对比损失函数:使用InfoNCE方法,使固定视角的图像与随机视角的图像在特征上更接近。
- 特征对齐损失函数:确保不同视角下的特征图之间的对应关系。
- 课程式领域随机化:逐渐增加随机化参数的幅度,以稳定训练过程。
具体应用场景
- 物体操控:例如,机器人需要抓起不同形状和颜色的物体,并将它们放置到特定位置。
- 双手协同任务:两个机器人臂需要协同工作,完成比如传递工具这样的任务。
- 复杂环境适应:在实验室外的复杂环境中,机器人需要适应不同的视觉条件和物体外观。
0条评论