来自加州大学伯克利分校的研究研究人员发布论文探讨如何让机器人,特别是人形机器人(humanoid),在现实世界中更好地行走。研究者们将这个问题看作是一个“下一个标记预测”问题,这类似于在语言中预测下一个单词。他们的模型是一个因果变换器(causal transformer),通过自回归预测传感器运动轨迹来训练。这种方法允许模型处理包含多种数据模式(如视频轨迹和动作数据)的数据集,并且即使在数据不完整的情况下也能进行学习。
主要功能:
- 使全尺寸的人形机器人能够在现实世界中零次学习(zero-shot learning)行走,这意味着机器人可以在没有特定训练的情况下执行任务。
- 模型能够处理不完整的数据,例如没有动作信息的视频轨迹,通过预测缺失的信息来学习。
主要特点:
- 多模态数据处理:模型能够处理包含传感器数据和动作命令的多模态数据。
- 数据泛化能力:即使在训练数据有限的情况下,模型也能泛化到新的命令和环境。
- 自回归预测:模型通过预测序列中的下一个元素来学习,这有助于捕捉数据中的长期依赖关系。
工作原理:
- 数据收集:研究者们从多种来源收集了传感器运动轨迹数据,包括神经网络策略、基于模型的控制器、人类运动捕捉数据和YouTube上的视频。
- 数据预处理:对收集到的数据进行处理,如使用计算机视觉技术重建人类视频,并通过逆运动学将数据重新定位到机器人上。
- 模型训练:使用因果变换器模型对数据进行自回归预测训练,学习如何根据过去的观察和动作预测下一个观察和动作。
- 模型推断:在实际应用中,模型会根据当前的观察和动作预测下一个动作,并执行该动作,然后根据机器人的实际观察更新模型。
应用场景:
- 城市环境:研究者们在旧金山的不同地点部署了他们的模型,展示了机器人能够在多种地面(如人行道、混凝土、沥青、瓷砖广场和沙土路)上行走。
- 动态环境:机器人能够在拥挤、不耐心且不易原谅的城市环境中稳定行走,这要求机器人具有高度的适应性和鲁棒性。
- 新技能学习:模型能够学习并执行在训练期间未见过的命令,例如向后行走,这表明了模型的泛化能力。
0条评论