加州大学伯克利分校和Autodesk的研究人员推出新型机器人学习模型ICRT,ICRT的核心目标是通过一种新颖的“在上下文中学习”(in-context learning)方法,让机器人能够在没有额外训练的情况下,通过理解输入的上下文信息来执行新任务。例如,我们有一个机器人,需要它在不同的环境中执行拾取和放置物体的任务。传统的方法可能需要对机器人进行大量的训练,以适应不同的环境配置。而使用ICRT,我们只需要提供一些新的演示(通过人类操作者在新环境中操作机器人),ICRT就能够理解这些演示并立即在新环境中执行类似的任务,无需进行额外的训练。这使得ICRT在实际应用中具有很大的潜力,尤其是在需要快速适应新任务或环境变化的场景中。
- 项目主页:https://icrt.dev
- GitHub:https://github.com/Max-Fu/icrt
- 模型:https://huggingface.co/mlfu7/ICRT
主要功能:
- 在上下文中学习:ICRT能够通过观察人类操作者的演示来学习新任务,而不需要对模型进行额外的训练。
- 灵活执行新任务:在测试时,ICRT能够根据新的传感器和运动轨迹来执行未见过的任务。
主要特点:
- 因果变换器:ICRT采用了一种因果变换器(causal transformer)架构,这种架构允许模型在不依赖任何语言数据或奖励函数的情况下,自回归地预测传感器和运动轨迹。
- 长上下文窗口:与现有的基于next-token预测的机器人学习模型不同,ICRT具有长上下文窗口,可以训练多个来自相同任务的传感器和运动轨迹,并在推理时使用一个或多个这样的轨迹作为提示。
工作原理:
- 数据形式:ICRT使用机器人的传感器和运动轨迹数据,这些数据包括图像观察、机器人的本体感知状态和动作。
- 模型架构:ICRT由一个预训练的视觉编码器、各种输入模态的投影器和一个因果变换器组成。模型通过这些组件将输入数据转换为状态和动作的序列。
- 训练和推理:在训练阶段,ICRT学习如何根据连续的传感器和运动轨迹进行动作预测。在推理阶段,模型根据人类操作者提供的新的传感器和运动轨迹来执行任务。
具体应用场景:
- 多任务环境:在多任务环境中,ICRT能够根据提供的上下文信息执行不同的任务,例如在不同环境中拾取和放置物体。
- 机器人教学:通过人类操作者的演示,ICRT可以快速学习并执行新任务,这减少了将机器人部署到实际应用中的复杂性。
0条评论