自动化数据生成管道APIGen:专门为生成可验证、多样化的函数调用数据集而设计

分类:大语言模型 | 热度:106 ℃

Salesforce AI Research推出APIGen系统,它是一个自动化的数据生成管道,专门为生成可验证、多样化的函数调用数据集而设计。这个系统的目标是提高函数调用代理模型(一种人工智能模型)的性能,这些模型能够根据自然语言指令执行API(应用程序编程接口)调用。使用APIGen生成的数据集训练的模型,在Berkeley Function-Calling Benchmark上取得了优异的性能,甚至超过了多个参数数量更多的GPT-4模型。此外,APIGen生成的数据集已经公开发布,以促进函数调用代理领域的研究和发展。

  • 项目主页:https://apigen-pipeline.github.io
  • 数据:https://huggingface.co/datasets/Salesforce/xlam-function-calling-60k

例如,你想要开发一个能够自动获取天气信息的智能助手。你可以使用APIGen来生成包含不同地区天气查询的数据集。APIGen会从天气API中采样数据,并生成包含正确参数(如地区和日期)的函数调用。然后,这些数据会经过验证,确保它们能够正确执行并返回预期的天气信息。通过这样的训练数据,智能助手能够学习如何根据用户的查询正确地调用API并提供准确的天气信息。

主要功能和特点:

  • 自动化数据生成:APIGen能够自动收集和生成大量的函数调用数据。
  • 多阶段验证:数据通过格式检查、实际函数执行和语义验证三个层次的验证,以确保数据的可靠性和正确性。
  • 高质量数据集:APIGen生成的数据集包含3,673个可执行API,跨越21个不同类别,数据集的规模和结构化程度高。

工作原理:

  1. 数据采样:APIGen从API库中采样API和示例问答对(种子数据),并将其格式化为标准化的JSON格式。
  2. 模板生成:选择一个基于数据生成目标的提示模板,引导语言模型生成相关的问答对。
  3. 多阶段验证
    • 格式检查:确保输出遵循JSON格式,并包含所有必要的字段。
    • 执行检查:执行生成的函数调用,验证它们的可执行性。
    • 语义检查:使用另一个大型语言模型评估执行结果是否与查询意图对齐。

具体应用场景:

  • 训练和评估模型:APIGen生成的数据集用于训练和评估函数调用代理模型,这些模型能够理解和执行自然语言指令。
  • 提高模型性能:通过使用APIGen生成的高质量数据集,即使是参数数量较少的模型也能在函数调用任务上取得优异的性能。
声明: 猎游人 每天为你带来最新的游戏和硬件打折情报,帮你精心挑选值得玩的游戏,让您的钱花的更值!本站信息大部分来自于网友爆料,如果您发现了优质的游戏或好的价格,不妨爆料给我们吧(谢绝任何商业爆料)! 点此爆料

0条评论

Hi,您需要填写昵称和邮箱!
姓名 (必填)
邮箱 (必填)
网站

暂时木有评论