微软新研究模拟试错(STE)法:使7B大模型测试成绩超GPT-4

分类:大语言模型 | 热度:213 ℃

微软和俄亥俄州立大学的研究人员发布论文,提出了一种受到生物启发的可以增强大语言模型使用工具能力的方法,即模拟试错(STE)法,并将其开源。该方法协调了试错、想象和记忆三个关键机制。ToolBench实验结果显示,STE在上下文学习和微调设置下显著提高了大语言模型的工具学习能力,让Mistral-Instruct-7B实现了46.7%的性能提升,使其成绩超过了GPT-4。这种方法受到生物系统中工具使用行为的启发,特别是人类和动物如何通过试错、想象和记忆来学习使用工具。

主要功能和特点:

  • 模拟试错: STE方法通过模拟LLMs的“想象”能力,让模型设想使用工具的合理场景,然后与工具互动以学习执行反馈。
  • 短期记忆与长期记忆: STE利用短期记忆来促进单次互动中的深入探索,而长期记忆则用于维护长时间范围内的渐进学习。
  • 提高准确性: 在ToolBench上的实验表明,STE显著提高了LLMs在上下文学习和微调设置下的工具学习能力,显著提升了模型的准确性。

工作原理:

  • 探索阶段: LLM与API(应用程序编程接口)进行互动,通过一系列试验来尽可能多地获取关于API的信息。在每次试验中,模型会想象一个与API相关的合理用户查询,尝试通过与API的互动来满足查询,然后反思这次试验。
  • 利用阶段: 从探索阶段获得的试验结果被用来通过微调或上下文学习(ICL)来增强LLM的工具使用能力。这些试验结果被提取出来,经过过滤和改写,用于微调或作为ICL的示范池。

具体应用场景:

  • API调用: STE可以用于提高LLMs在实际环境中调用API的准确性,例如在天气预报、地理位置查询、体育比赛统计等场景中。
  • 持续学习: STE方法允许模型在不断学习新工具的同时,保留之前获得的技能,这对于需要模型适应不断变化的工具集合的应用场景尤为重要。
声明: 猎游人 每天为你带来最新的游戏和硬件打折情报,帮你精心挑选值得玩的游戏,让您的钱花的更值!本站信息大部分来自于网友爆料,如果您发现了优质的游戏或好的价格,不妨爆料给我们吧(谢绝任何商业爆料)! 点此爆料

0条评论

Hi,您需要填写昵称和邮箱!
姓名 (必填)
邮箱 (必填)
网站

暂时木有评论