MAUM.AI和延世大学的研究人员推出了一个名为CANVAS的系统,它是一个让机器人能够理解人类导航指令并据此行动的框架。想象一下,如果你告诉机器人“走到大厅另一边的桌子那里”,CANVAS能够让机器人理解这样抽象的指令,并在环境中穿行以到达目的地。它通过模仿人类的行为来学习如何根据视觉和语言指令进行导航。
- 项目主页:https://worv-ai.github.io/canvas
- GitHub:https://github.com/worv-ai/canvas
例如,你在一个大型仓库里工作,需要一个机器人帮你去架子上取货。你可以简单地画一个草图,显示你想要的物品的位置,然后告诉机器人“去那里拿东西”。CANVAS系统能够让机器人理解这个草图和语言指令,自动规划出一条路径,避开障碍物,最终到达架子那里并取回你需要的物品。
主要功能:
- 理解人类指令:机器人能够理解自然语言指令和草图指令。
- 常识性导航:机器人能够使用常识性知识来填补指令中的空白,并作出符合人类预期的导航决策。
- 模仿学习:通过模仿人类在模拟环境中的行为,机器人能够学习如何在真实世界中导航。
主要特点:
- 多模态输入:CANVAS可以处理视觉(如草图)和语言(如文字指令)的输入。
- 模拟学习:机器人在模拟环境中学习,然后这些知识可以转移到现实世界中。
- 高性能:在模拟环境和真实世界中的表现都优于传统的基于规则的系统。
工作原理:
CANVAS使用了一个视觉-语言模型(VLM),这个模型能够处理来自机器人相机的图像(视觉输入)和人类给出的语言指令。模型通过模仿学习,分析人类在模拟环境中的行为,从而学习如何将抽象的指令转换为具体的导航步骤。它使用一系列的奖励机制来量化成功的导航行为,并优化其决策过程。
具体应用场景:
- 室内导航:比如在办公室环境中,机器人可以根据指令将文件送到指定的桌子。
- 街道导航:机器人可以按照指令在街道上导航,比如从街道的一侧导航到另一侧。
- 农业应用:在果园中,机器人可以根据指令在树木间导航,进行喷洒农药等任务。
0条评论