加州大学伯克利分校、斯坦福大学、卡内基梅隆大学和谷歌DeepMind推出开源通用机器人策略模型Octo,Octo基于transformer架构,并通过在800,000个多样化的机器人操作轨迹上进行预训练,这些轨迹来自Open X-Embodiment数据集。这个模型的特点是支持灵活的任务定义和观察方式,并且能够快速适应新的观察和动作空间。
- 项目主页:https://octo-models.github.io/
- GitHub:https://github.com/octo-models/octo
- 模型地址:https://huggingface.co/rail-berkeley
例如,我们需要一个机器人在厨房中执行任务,比如将面包放入烤面包机并关闭它。使用Octo,我们可以通过语言指令或目标图像来指导机器人完成这项任务。如果机器人需要适应新的环境或任务,比如在一个不同的厨房里工作,或者需要学习如何使用不同的咖啡机,Octo可以通过微调来快速适应这些新的要求,而无需从头开始训练。这使得Octo成为一个灵活且强大的工具,适用于广泛的机器人学习和研究项目。
主要功能:
- 多机器人控制:Octo能够控制多种不同的机器人。
- 灵活的任务和观察定义:它可以通过语言指令或目标图像来接收任务指示,并能够处理不同的观察输入,如手腕相机和第三人称相机视角。
- 快速微调:Octo可以快速适应新的观察和动作空间,只需在标准的消费级GPU上训练几个小时即可。
主要特点:
- 大规模预训练:Octo在迄今为止最大的机器人操作数据集上进行了预训练。
- 灵活性:支持不同的相机配置和机器人控制。
- 快速适应性:通过微调,Octo能够适应新的感官输入和动作空间。
- 开源:包括训练流程、模型检查点和数据在内的所有资源都是开源的。
工作原理:
- 输入分词器:将任务描述(如语言指令和目标图像)以及观察序列转换成令牌(token)。
- 变换器骨干:处理这些令牌并产生嵌入表示,然后传递给输出头以产生动作。
- 条件扩散解码头:用于预测连续的、多模态的动作分布。
具体应用场景:
- 多机器人平台:Octo在9个不同的机器人平台上进行了测试,包括家庭环境、实验室设置和工业场景。
- 多样化任务:从简单的物体抓取和放置,到复杂的烘焙和咖啡制作任务。
- 微调适应性:Octo可以微调以适应新的环境和任务,例如在新的观察输入(如力-扭矩输入)或新的动作空间(如关节位置控制)中进行适应。
0条评论