新基准测试GTA:评估和提升大语言模型在现实世界场景中使用各种工具的能力

分类:大语言模型 | 热度:75 ℃

上海交通大学和上海人工智能实验室的研究人员推出新基准测试GTA(General Tool Agents),它是为了评估和提升大语言模型(LLMs)在现实世界场景中使用各种工具的能力而设计的。GTA基准测试的主要挑战在于,现有的评估方法往往使用人工智能生成的查询、单一步骤任务、虚拟工具和仅限文本的交互,这些都不能有效地揭示代理在现实世界问题解决能力。

  • 项目主页:https://open-compass.github.io/GTA
  • GitHub:https://github.com/open-compass/GTA
  • 数据:https://huggingface.co/datasets/Jize1/GTA

例如,你有一个智能助手,它可以通过互联网搜索信息、识别图片内容、进行数学计算等。但是,如果给它一个复杂的任务,比如计划一次旅行,它需要能够理解任务、搜索航班和酒店信息、计算预算等。GTA就是这样一个测试,它检查智能助手是否能够聪明地使用各种工具来完成真实世界中的任务。

主要功能

  • 评估大型语言模型在现实世界任务中使用工具的能力。
  • 提供真实用户查询、真实部署的工具和真实的多模态输入。

主要特点

  1. 真实用户查询:由人类编写的查询,具有简单的现实世界目标,但隐含了使用工具的需求。
  2. 真实部署的工具:评估平台配备了跨感知、操作、逻辑和创造力类别的工具,用于评估代理实际任务执行的性能。
  3. 真实的多模态输入:使用真实的图像文件,如空间场景、网页截图、表格、代码片段和印刷/手写材料,作为查询的上下文。

工作原理

  • GTA通过设计真实世界任务和可执行的工具链来评估主流的大型语言模型。
  • 使用大型语言模型作为中心控制器,调用不同类别的工具来解决问题。
  • 通过详细的工具链和评估指标,GTA能够细致地评估工具增强的大型语言模型在现实世界场景中的推理和规划能力。

具体应用场景

  • 教育:设计课程和教学计划,搜索教育资源。
  • 个人助理:帮助用户管理日程、搜索信息、设置提醒。
  • 客户服务:自动回答用户查询,提供个性化推荐。
  • 内容创作:生成创意文本和图像,辅助设计和创意工作。

总的来说,GTA基准测试是一个为了推动大型语言模型在更复杂、更真实场景下的应用而设计的评估工具,它强调了模型在集成多种工具和处理多模态数据时的能力。

GTA
声明: 猎游人 每天为你带来最新的游戏和硬件打折情报,帮你精心挑选值得玩的游戏,让您的钱花的更值!本站信息大部分来自于网友爆料,如果您发现了优质的游戏或好的价格,不妨爆料给我们吧(谢绝任何商业爆料)! 点此爆料

0条评论

Hi,您需要填写昵称和邮箱!
姓名 (必填)
邮箱 (必填)
网站

暂时木有评论