北京人工智能研究院、南洋理工大学、北京大学计算机学院的研究人员发布论文,详细介绍了训练AI玩《荒野大镖客2:救赎》所面临的挑战,并对其在游戏中的表现进行了评估和评述。在题为《迈向通用计算机控制:以《荒野大镖客救赎2》为案例研究的多模态智能体》这篇论文中,读者可以了解到AI通用计算机控制(General Computer Control,GCC)的概念,以及一个名为CRADLE的六模块代理框架,该框架用于衔接GPT-4V与游戏《荒野大镖客2:救赎》。
研究者认为,通过让GPT-4V驱动的AI与计算机互动,结合视觉和音频线索,像熟练掌握计算机的人类那样智能地操控游戏,这项关于AI玩转《荒野大镖客2:救赎》的研究展示了AI在追求通用人工智能(Artificial General Intelligence,AGI)道路上的发展水平。他们的目标是展示AI在完成复杂通用计算机控制任务(GCC)方面的可行性。
研究人员选择《荒野大镖客2:救赎》作为研究对象,是因为这款游戏拥有高度复杂的封闭式控制系统,代表了最苛刻的计算机任务类型,有利于他们在虚拟环境中检验所构建框架的性能极限。《荒野大镖客2:救赎》提供的丰富环境和多样的情境考验玩家的决策能力,加上对话框、特殊图标、游戏内提示和指南等UI元素,保证了AI学习过程不依赖任何预设背景知识。研究者特别指出,通过键盘和鼠标操作《荒野大镖客2:救赎》,相比于日常生活中运行的大多数软件,对AI的GCC能力提出了更高的要求。
虽然发表的论文集中讨论了《荒野大镖客2:救赎》,但CRADLE框架的设计初衷是为了拓展GCC的应用范围,旨在支持更多的游戏类型,如模拟游戏、策略游戏,以及多种软件应用。本研究的关键创新之处就在于提出的CRADLE框架,下面我们将对其进行深入剖析。
在上图中,我们可以概览CRADLE是如何应对GCC游戏挑战,尤其是在《荒野大镖客2:救赎》中的具体应用。研究团队希望证明CRADLE能够像新手玩家那样,从零开始学习并理解《荒野大镖客2:救赎》,只通过屏幕视觉和听觉信息来进行操作。随后,AI代理需通过在游戏世界中探索并完成任务,跟随RDR2主线剧情逐步推进。
总的来说,CRADLE在《荒野大镖客2:救赎》中的表现取得了一定的成功。研究者们对主线故事任务和开放式任务进行了全面评估。核心发现是:“CRADLE能够持续稳定地完成《荒野大镖客2:救赎》主线剧情的所有任务”。不过,也存在部分特殊情况,如快速枪战任务“保卫Dutch”、需要探索复杂室内环境的任务“搜查房屋”,以及长期开放性任务等,AI代理在这些任务中遇到了难题。
CRADLE在任务推断和自我反馈方面的能力尤其重要,这一点在上图中得到了体现。这对于代理在游戏中灵活移动和准确判断任务完成情况至关重要。研究过程中,CRADLE反复遇到的一些困难被认为主要源自GPT-4V的局限性。具体而言,论文指出GPT-4V的空间视觉识别能力不足以实现精确细微的操作控制,并且在理解游戏中特有的图标、阅读小地图以及应对游戏环境中的普遍障碍物等方面表现出困难。
以下是论文介绍:
这篇论文的主题是关于开发一种名为CRADLE的多模态代理框架,它旨在让计算机能够像人类一样通过屏幕图像和音频输入,以及键盘和鼠标操作输出来掌握任何计算机任务。这个框架是为了实现所谓的“通用计算机控制”(General Computer Control, GCC),这是一个具有挑战性的目标,因为它要求代理能够在没有特定于任务的API或内部状态信息的情况下,通过观察和交互来理解和操作计算机环境。
主要功能和特点:
- 多模态观察: CRADLE能够处理和理解多种类型的输入数据,包括屏幕图像、文本信息和音频信息。这使得它能够从复杂的计算机环境中提取有用的信息。
- 自我反思: 代理具有自我反思的能力,能够评估自己之前执行的动作是否成功,并根据这些信息调整未来的决策。
- 任务推断: 代理能够根据当前的情况和过去的经验推断出接下来最适合执行的任务。
- 技能策划: 代理能够生成和更新执行特定任务所需的技能,这些技能以代码函数的形式表示。
- 动作规划: 代理能够规划一系列的键盘和鼠标操作来完成给定的任务。
- 记忆模块: CRADLE具有长期和短期记忆,能够存储和检索过去的经验和学到的技能。
工作原理: CRADLE框架通过六个主要模块来实现其功能:
- 信息收集: 从屏幕截图中提取文本和视觉信息。
- 自我反思: 评估先前动作的效果,并从中学习。
- 任务推断: 确定当前最合适的任务。
- 技能策划: 根据任务需求生成或更新技能。
- 动作规划: 选择并序列化技能以执行任务。
- 记忆: 存储关键信息和技能,以便未来使用。
具体应用场景: CRADLE框架被部署在一个复杂的AAA级游戏《Red Dead Redemption II》中,作为一个初步尝试来实现GCC。在这个游戏中,代理需要完成一系列任务,如骑马、跟随NPC、探索房屋、选择武器、与敌人和狼战斗等。这些任务要求代理能够理解和执行游戏屏幕上显示的各种指示和提示。例如,如果游戏提示玩家“按下[Tab]键显示武器轮盘”,CRADLE就需要能够理解这一指示并通过生成相应的键盘操作代码来执行这一动作。
总的来说,CRADLE框架展示了一种让计算机代理通过观察和模仿人类与计算机交互的方式来学习执行复杂任务的能力。这种方法为开发能够在各种数字环境中通用的智能代理提供了一个有前景的方向。
0条评论