新型机器人学习模型ICRT:通过一种新颖的“在上下文中学习”方法,让机器人能够在没有额外训练的情况下,通过理解输入的上下文信息来执行新任务

分类:机器人 | 热度:18 ℃

加州大学伯克利分校和Autodesk的研究人员推出新型机器人学习模型ICRT,ICRT的核心目标是通过一种新颖的“在上下文中学习”(in-context learning)方法,让机器人能够在没有额外训练的情况下,通过理解输入的上下文信息来执行新任务。例如,我们有一个机器人,需要它在不同的环境中执行拾取和放置物体的任务。传统的方法可能需要对机器人进行大量的训练,以适应不同的环境配置。而使用ICRT,我们只需要提供一些新的演示(通过人类操作者在新环境中操作机器人),ICRT就能够理解这些演示并立即在新环境中执行类似的任务,无需进行额外的训练。这使得ICRT在实际应用中具有很大的潜力,尤其是在需要快速适应新任务或环境变化的场景中。

  • 项目主页:https://icrt.dev
  • GitHub:https://github.com/Max-Fu/icrt
  • 模型:https://huggingface.co/mlfu7/ICRT

主要功能:

  • 在上下文中学习:ICRT能够通过观察人类操作者的演示来学习新任务,而不需要对模型进行额外的训练。
  • 灵活执行新任务:在测试时,ICRT能够根据新的传感器和运动轨迹来执行未见过的任务。

主要特点:

  • 因果变换器:ICRT采用了一种因果变换器(causal transformer)架构,这种架构允许模型在不依赖任何语言数据或奖励函数的情况下,自回归地预测传感器和运动轨迹。
  • 长上下文窗口:与现有的基于next-token预测的机器人学习模型不同,ICRT具有长上下文窗口,可以训练多个来自相同任务的传感器和运动轨迹,并在推理时使用一个或多个这样的轨迹作为提示。

工作原理:

  1. 数据形式:ICRT使用机器人的传感器和运动轨迹数据,这些数据包括图像观察、机器人的本体感知状态和动作。
  2. 模型架构:ICRT由一个预训练的视觉编码器、各种输入模态的投影器和一个因果变换器组成。模型通过这些组件将输入数据转换为状态和动作的序列。
  3. 训练和推理:在训练阶段,ICRT学习如何根据连续的传感器和运动轨迹进行动作预测。在推理阶段,模型根据人类操作者提供的新的传感器和运动轨迹来执行任务。

具体应用场景:

  • 多任务环境:在多任务环境中,ICRT能够根据提供的上下文信息执行不同的任务,例如在不同环境中拾取和放置物体。
  • 机器人教学:通过人类操作者的演示,ICRT可以快速学习并执行新任务,这减少了将机器人部署到实际应用中的复杂性。
声明: 猎游人 每天为你带来最新的游戏和硬件打折情报,帮你精心挑选值得玩的游戏,让您的钱花的更值!本站信息大部分来自于网友爆料,如果您发现了优质的游戏或好的价格,不妨爆料给我们吧(谢绝任何商业爆料)! 点此爆料

0条评论

Hi,您需要填写昵称和邮箱!
姓名 (必填)
邮箱 (必填)
网站

暂时木有评论