用于评估交互式编程智能体的基准测试环境AppWorld

分类:大语言模型 | 热度:136 ℃

石溪大学、艾伦人工智能研究所和萨尔大学的研究人员推出一个名为AppWorld的框架,这是一个用于评估交互式编程智能体的基准测试环境。AppWorld框架包括一个AppWorld Engine和一个AppWorld Benchmark。这项技术为开发能够处理复杂任务的智能体提供了一个强大的测试平台,推动了交互式编程智能体研究的前沿。

  • GitHub:https://github.com/stonybrooknlp/appworld
  • 项目主页:https://appworld.dev

例如,你是一个智能体,需要为今天的锻炼播放Spotify播放列表。首先,你需要编写代码来查找并“读取”包含锻炼计划的笔记。然后,根据今天的日期,提取相关的锻炼时长。最后,你需要编写复杂的代码,使用循环和其他控制流来迭代播放列表,累加单个歌曲的时长,并播放一个覆盖锻炼时长的播放列表。

用于评估交互式编程智能体的基准测试环境AppWorld

主要功能和特点:

  1. 高度控制的执行环境:AppWorld Engine提供了一个高质量的仿真环境,模拟了9个日常应用程序(Apps),这些程序可以通过457个API进行操作。
  2. 丰富的任务套件:AppWorld Benchmark包含750个自然、多样且具有挑战性的任务,这些任务要求智能体进行丰富且交互式的代码生成。
  3. 强大的评估工具:支持基于状态的单元测试,允许以不同的方式完成任务,同时检查意外变化,即附带损害。

工作原理:

  • AppWorld Engine:构建了一个模拟环境,其中有大约100个虚构用户的日常数字活动。这些用户之间存在典型的关系,如室友、家人等。
  • 任务生成:AppWorld Benchmark中的任务要求智能体根据环境交互和API调用来迭代生成具有复杂控制流的代码。
  • 评估方法:使用AppWorld Engine对数据库进行细粒度控制,创建了一套“单元”测试,直接检查数据库的条目和变化,允许对复杂任务的编程和健壮评估。

具体应用场景:

  1. 自动化日常数字任务:例如,为家庭订购杂货,这可能涉及在记事本应用中查找购物清单,在消息应用中检查室友的请求,以及在杂货应用上下达订单。
  2. 智能体开发和测试:研究人员和开发人员可以使用AppWorld来测试和改进智能体在执行日常任务时的编程和工具使用能力。
声明: 猎游人 每天为你带来最新的游戏和硬件打折情报,帮你精心挑选值得玩的游戏,让您的钱花的更值!本站信息大部分来自于网友爆料,如果您发现了优质的游戏或好的价格,不妨爆料给我们吧(谢绝任何商业爆料)! 点此爆料

0条评论

Hi,您需要填写昵称和邮箱!
姓名 (必填)
邮箱 (必填)
网站

暂时木有评论