谷歌DeepMind团队发布了可扩展、可指导的多世界智能体SIMA(Scalable Instructable Multiworld Agent),该智能体可以遵循自然语言指令在各种视频游戏环境中执行任务,从个别游戏转向通用的、可指导的游戏AI智能体。据介绍,SIMA适用于3D虚拟环境,可通过语言接口将先进的AI模型能力转化为有用的现实世界行动。想象一下,你有一个虚拟助手,它可以在各种不同的电脑游戏中按照你的指令行动,无论是建造房子、探索星球还是驾驶飞船,这个助手都能够理解并执行你的命令。
主要功能:
- 理解自然语言指令:SIMA能够通过自然语言处理技术理解用户的指令。
- 执行复杂任务:它能够在3D环境中执行一系列复杂的动作,如拾取物品、建造结构、导航等。
- 跨环境学习:SIMA可以在多个不同的虚拟环境中学习,并将学到的技能迁移到新的环境。
主要特点:
- 语言驱动的通用性:SIMA的设计重点是通过语言指令来引导行为,而不是仅仅通过预设的命令集。
- 人类兼容的接口:它使用与人类玩家相同的键盘和鼠标控制,这使得它能够模仿人类的行为。
- 视觉复杂和语义丰富的环境:SIMA在包含丰富视觉元素和多种可能交互的复杂环境中进行训练。
工作原理:
SIMA通过收集大量的人类玩家游戏数据来训练,这些数据包括视频、语言指令、动作记录和成功与否的标记。然后,它使用深度学习模型来学习如何将视觉观察(即游戏画面)和语言指令映射到键盘和鼠标动作上。这个过程中,它还会使用预训练的模型来帮助理解和处理视觉信息,以及通过所谓的“无分类器引导”(Classifier-Free Guidance)技术来增强语言指令的条件性。
具体应用场景:
- 视频游戏:SIMA可以在商业视频游戏中执行任务,如《No Man's Sky》中的星球探索或《Goat Simulator 3》中的恶作剧。
- 研究环境:它也可以在为AI研究设计的控制环境中进行测试,如在“Construction Lab”中建造物品。
- 教育和培训:未来,SIMA可以用于创建互动教育体验,帮助学习者通过与虚拟环境的交互来学习新技能。
总的来说,SIMA项目展示了如何通过结合先进的机器学习技术和大规模数据集,来开发能够在丰富和动态的3D世界中理解和执行复杂指令的智能代理。
以下是官方全文翻译:
我们发布了一项关于可扩展、可指导的多世界代理(Scalable Instructable Multiworld Agent,简称SIMA)的新研究。该代理能够遵循自然语言指令,在各种视频游戏环境中执行多样任务。
视频游戏作为人工智能(AI)系统的重要试验场,提供了丰富的学习环境。与现实世界相似,游戏环境具有实时响应和不断变化的特性,为我们提供了宝贵的训练资源。
从早期在Atari游戏上的探索,到AlphaStar系统在《星际争霸II》中展现出的人类大师级水平,谷歌DeepMind在AI和游戏领域积累了丰富的经验。
今天,我们迎来了一个新的里程碑——将焦点从单一游戏转向开发通用、可指导的游戏AI代理。
在最新的技术报告中,我们介绍了SIMA,这是一种适用于3D虚拟环境的通用AI代理。我们与游戏开发商紧密合作,训练SIMA在各种视频游戏中运行。这项研究首次证实了一个代理能够理解多个游戏世界,并遵循自然语言指令执行其中的任务,这与人类玩家的行为相似。
需要强调的是,这项研究的目标并非追求游戏高分。学会玩一款视频游戏对AI系统来说已是一项技术突破,但学会在多种游戏环境中遵循指令,可能会解锁更多适用于各种现实环境的实用AI代理。我们的研究展示了如何通过语言界面将先进AI模型的能力转化为实际有用的行动。我们期望SIMA和其他代理研究能够利用视频游戏作为实验平台,进一步探索AI系统如何变得更加有用和智能。
从视频游戏中学习
为了让SIMA能够接触更多环境,我们与多家游戏开发商建立了合作关系,共同开展研究。我们与八家游戏工作室携手,在九款不同的视频游戏上训练和测试SIMA,这些游戏包括Hello Games开发的《无人深空》和Tuxedo Labs制作的《拆迁》。每一款游戏都为SIMA打开了一个全新的交互世界,提供了从简单的导航和菜单使用,到采集资源、驾驶宇宙飞船,甚至制作头盔等各种技能的学习机会。
此外,我们还利用了四个研究环境,其中包括我们与Unity合作创建的一个全新环境——建筑实验室。在这个环境中,代理需要通过积木搭建雕塑,以此来测试它们对物体的操作能力和对物理世界的直观理解。
通过从多个游戏世界中学习,SIMA逐渐掌握了语言与游戏行为之间的关联。我们的初步方法是记录组合中每款游戏的人类玩家对,其中一名玩家负责观察并指导另一名玩家。同时,我们也让玩家自由进行游戏,随后重播他们的操作,并记录下能够引导他们完成游戏动作的指令。
SIMA:一个多功能的AI代理
SIMA是一款能够感知并理解多种环境,进而执行特定目标的AI代理。它包含一个专为精确图像-语言映射设计的模型,以及一个用于预测屏幕上接下来会发生什么的视频模型。为了适应SIMA组合中3D环境特有的训练数据,我们对这些模型进行了微调。
我们的AI代理无需访问游戏的源代码或定制API,仅需要两个输入:屏幕上的图像和用户提供的简单、自然语言指令。SIMA利用键盘和鼠标输出来控制游戏主角执行这些指令。由于这一界面与人类使用的界面相同,SIMA有潜力与任何虚拟环境进行交互。
当前版本的SIMA在600项基本技能上接受了评估,涵盖导航(如“左转”)、物体交互(“爬梯子”)和菜单使用(“打开地图”)等多个方面。我们训练SIMA执行一些简单任务,这些任务通常可以在大约10秒内完成。
我们期望未来的代理能够处理那些需要高级战略规划以及完成多个子任务的任务,比如“寻找资源并建造营地”。这对于AI领域来说是一个重要目标,因为虽然大型语言模型已经能够构建出能够捕获世界知识并制定计划的强大系统,但目前它们仍然缺乏代我们采取行动的能力。
跨游戏泛化及其他
我们的研究结果显示,经过多款游戏训练的代理表现优于仅针对单一游戏进行学习的代理。在评估过程中,通过在我们组合中的九款3D游戏中训练的SIMA代理,其表现显著超越了仅针对每款游戏单独训练的特定代理。更值得一提的是,一个经过除一款游戏外的所有游戏训练的代理,在那款未见过的游戏中的表现,平均而言,与专门针对那款游戏训练的代理相差无几。这一能力突显了SIMA在训练范围之外的泛化能力,令人鼓舞。然而,要使SIMA在可见和不可见的游戏中均达到人类水平的表现,我们还需要进行更深入的研究。
此外,我们的结果还显示,SIMA的表现很大程度上依赖于语言。在控制测试中,如果代理没有接受任何语言训练或指令,它的行为虽然适当,但缺乏明确目标。例如,代理可能会去收集资源——这是一种常见的行为,但却并非按照我们指定的方向或地点进行。
推动AI代理的研究进程
SIMA的成果展现了开发新一代通用型、语言驱动的AI代理的巨大潜力。尽管目前尚处于研究初期,但我们期待在更多样化的训练环境中继续深化SIMA的研发,并整合更为强大的模型。
随着SIMA暴露于更多的训练环境,我们预期它将变得更加通用和灵活。同时,借助更为先进的模型,我们有望进一步提升SIMA对高级语言指令的理解和执行能力,以实现更为复杂的目标。
最终,我们的研究旨在构建更加通用的AI系统和代理,它们能够理解和安全地执行一系列广泛的任务,从而为线上和线下的用户提供切实的帮助。
0条评论