Google DeepMind推出新型基准测试NATURAL PLAN:专门用来评估大语言模型在处理自然语言描述的计划任务方面的能力

分类:大语言模型 | 热度:72 ℃

Google DeepMind推出新型基准测试NATURAL PLAN,它专门用来评估大语言模型(LLMs)在处理自然语言描述的计划任务方面的能力。这个基准测试包含三个关键任务:旅行规划、会议规划和日历安排。论文的核心思想是,通过提供像Google Flights、Google Maps和Google Calendar这样的工具的输出作为上下文信息,来评估LLMs在完全信息的情况下进行规划的能力。

例如,你要计划一个为期两周的欧洲之旅,你想去佛罗伦萨待6天,期间还要在第9天到第14天会见一个朋友。你还想分别在巴塞罗那和赫尔辛基各待5天。NATURAL PLAN会提供一个基准测试,来评估LLMs是否能够根据这些约束条件生成一个合适的旅行计划。论文的实验结果表明,即使是最先进的模型,在面对复杂性增加的任务时,也面临着巨大的挑战。例如,在涉及10个城市的旅行规划任务中,所有模型的性能都低于5%。这突显了在自然语言规划领域,即使是最先进的LLMs也存在显著的性能差距。

主要功能:

  1. 评估LLMs的规划能力:NATURAL PLAN专注于评估LLMs在完全信息条件下的规划能力。
  2. 提供真实世界数据:使用真实世界的数据作为上下文,例如航班连接信息、城市间的旅行时间等。
  3. 基准测试:提供了一个挑战性的基准测试,以推动LLMs在自然语言规划方面的进步。

主要特点:

  1. 真实性:任务设计反映了真实世界的应用场景。
  2. 复杂性:随着问题复杂性的增加,例如涉及更多的城市或人,模型的性能显著下降。
  3. 全面性:覆盖了旅行规划、会议规划和日历安排等多个规划领域。

工作原理:

  1. 数据合成:使用工具数据和创建各种约束条件来合成数据集。
  2. 评估模型:通过解析模型输出并与标准答案进行比较,来评估模型生成的计划是否准确。
  3. 性能度量:使用精确匹配(Exact Match)分数来衡量模型生成的计划与标准计划的一致性。

具体应用场景:

  1. 旅行规划:例如,规划一个14天的欧洲之旅,需要访问几个城市,并满足特定的约束条件,如只在有直飞的城市间旅行。
  2. 会议规划:在给定多个朋友的可用时间的情况下,规划在特定时间内与尽可能多的朋友会面。
  3. 日历安排:在多个参与者的现有日程中找到合适的时间安排工作会议。
声明: 猎游人 每天为你带来最新的游戏和硬件打折情报,帮你精心挑选值得玩的游戏,让您的钱花的更值!本站信息大部分来自于网友爆料,如果您发现了优质的游戏或好的价格,不妨爆料给我们吧(谢绝任何商业爆料)! 点此爆料

0条评论

Hi,您需要填写昵称和邮箱!
姓名 (必填)
邮箱 (必填)
网站

暂时木有评论