开放平台LEGENT:开发能够物理交互或在模拟环境中互动的“体现智能”(embodied intelligence)代理

分类:大语言模型 | 热度:165 ℃

清华大学和中南大学的研究人员推出开放平台LEGENT,它旨在开发能够物理交互或在模拟环境中互动的“体现智能”(embodied intelligence)代理。这些代理能够理解并生成类似人类的文本,并执行真实图像中的任务。尽管大语言模型(LLMs)和大型多模态模型(LMMs)在文本和图像理解方面取得了显著进展,但将它们直接应用于体现智能代理仍然面临挑战,因为这些模型缺乏与物理交互相关的基础。

例如,我们想训练一个机器人代理在虚拟环境中执行清洁任务。通过LEGENT平台,我们可以生成包含各种家具和清洁工具的3D环境,然后为代理提供语言指令,如“清理沙发下的灰尘”。代理将使用其自我中心视觉观察环境,理解指令,并执行一系列动作,如移动到沙发旁,弯腰,并模拟使用吸尘器的动作。所有这些动作和观察都可以被记录下来,并用作训练数据,以改进代理在未来执行类似任务的能力。

主要功能:

  • 提供一个3D交互环境,使代理能够执行动作并与用户进行直接的语言交互。
  • 支持大规模训练数据的生成,以训练体现智能代理。

主要特点:

  1. 丰富的3D环境:包括多样化、逼真且可互动的场景。
  2. 用户友好的界面:为不熟悉3D环境的研究人员提供全面支持。
  3. 数据生成管道:利用先进算法从模拟世界中提取监督信息,以支持体现智能代理的大规模训练。

工作原理:

LEGENT平台由以下部分组成:

  • 场景(Scene):提供逼真的物理模拟和多样化的渲染风格,以及可交互的对象和可扩展的资产。
  • 代理(Agent):设计为具有人类交互特征,并与LMMs兼容。代理能够执行自我中心观察、语言交互和一般化动作。
  • 界面(Interface):提供易于使用的界面,使研究人员能够轻松地将LLMs和LMMs与体现环境集成。

此外,LEGENT构建了一个系统化的数据生成管道,包括场景生成、任务生成和代理轨迹生成,以自动化和规模化地生成训练数据。

具体应用场景:

例如,在智能家居环境中,一个体现智能代理可能需要理解用户的自然语言指令,如“请把咖啡杯拿到厨房”,然后自主地执行这一任务,包括导航到客厅的桌子,识别咖啡杯,捡起它,并将其移动到厨房。

声明: 猎游人 每天为你带来最新的游戏和硬件打折情报,帮你精心挑选值得玩的游戏,让您的钱花的更值!本站信息大部分来自于网友爆料,如果您发现了优质的游戏或好的价格,不妨爆料给我们吧(谢绝任何商业爆料)! 点此爆料

0条评论

Hi,您需要填写昵称和邮箱!
姓名 (必填)
邮箱 (必填)
网站

暂时木有评论