当前位置：首页 > 优惠 >大语言模型>文章详情

用于评估交互式编程智能体的基准测试环境AppWorld

推荐人：暴走AI| 商城: AI | 9个月前 (07-30)| 分类：大语言模型 | 热度：226 ℃

已关闭评论

石溪大学、艾伦人工智能研究所和萨尔大学的研究人员推出一个名为AppWorld的框架，这是一个用于评估交互式编程智能体的基准测试环境。AppWorld框架包括一个AppWorld Engine和一个AppWorld Benchmark。这项技术为开发能够处理复杂任务的智能体提供了一个强大的测试平台，推动了交互式编程智能体研究的前沿。

GitHub：https://github.com/stonybrooknlp/appworld
项目主页：https://appworld.dev

例如，你是一个智能体，需要为今天的锻炼播放Spotify播放列表。首先，你需要编写代码来查找并“读取”包含锻炼计划的笔记。然后，根据今天的日期，提取相关的锻炼时长。最后，你需要编写复杂的代码，使用循环和其他控制流来迭代播放列表，累加单个歌曲的时长，并播放一个覆盖锻炼时长的播放列表。

用于评估交互式编程智能体的基准测试环境AppWorld

主要功能和特点：

高度控制的执行环境：AppWorld Engine提供了一个高质量的仿真环境，模拟了9个日常应用程序（Apps），这些程序可以通过457个API进行操作。
丰富的任务套件：AppWorld Benchmark包含750个自然、多样且具有挑战性的任务，这些任务要求智能体进行丰富且交互式的代码生成。
强大的评估工具：支持基于状态的单元测试，允许以不同的方式完成任务，同时检查意外变化，即附带损害。

工作原理：

AppWorld Engine：构建了一个模拟环境，其中有大约100个虚构用户的日常数字活动。这些用户之间存在典型的关系，如室友、家人等。
任务生成：AppWorld Benchmark中的任务要求智能体根据环境交互和API调用来迭代生成具有复杂控制流的代码。
评估方法：使用AppWorld Engine对数据库进行细粒度控制，创建了一套“单元”测试，直接检查数据库的条目和变化，允许对复杂任务的编程和健壮评估。