布朗大学计算机科学系的研究人员推出新基准测试Planetarium,用于评估大语言模型解决规划问题的性能,特别是将自然语言描述的规划任务转换成结构化的规划语言,例如规划领域定义语言(PDDL),并通过实验展示了现有模型在这一领域的挑战和潜力。例如,你告诉计算机:“我想要把桌子上的两个积木堆叠起来。”计算机需要理解这句话,然后决定如何一步步实现这个目标。这就需要计算机能够将这种自然语言描述转换成一种它能够理解和执行的格式,也就是PDDL。
- GitHub:https://github.com/BatsResearch/planetarium
主要功能:
- 自然语言到PDDL的翻译:将人类的日常语言转换成计算机可以执行的结构化语言。
- 规划问题求解:使用生成的PDDL代码,结合传统的规划求解器来找到问题的解决方案。
主要特点:
- 精确性:确保生成的PDDL代码不仅在语法上正确,而且在语义上与原始的自然语言描述相匹配。
- 大规模数据集:提供了一个包含13万个文本到PDDL配对的数据集,用于训练和评估模型。
- 难度分级:数据集中的任务按照抽象程度和大小分为不同的难度级别,以评估模型在不同复杂度上的表现。
工作原理:
- PDDL等价性算法:开发了一个算法来严格评估由语言模型生成的PDDL代码的正确性,通过与基准PDDL代码进行灵活比较。
- 场景图:使用场景图这种数据结构来表示PDDL问题中的对象、属性和它们之间的关系,以便于比较不同的规划问题。
- 图同构检查:通过将PDDL代码转换成场景图,然后检查这些图是否同构(即结构相同),来确定它们是否描述了相同的规划问题。
具体应用场景:
- 自动化规划:在工业、科研或日常生活中自动化地生成执行任务的计划。
- 机器人指令生成:为机器人提供自然语言指令,然后转换成机器人可以理解和执行的步骤。
- 教育和培训:在教育领域,帮助学生理解如何将问题分解成可执行的步骤。
0条评论