新型Transformer模型Searchformer:训练Transformer来解决复杂的规划任务

分类:大语言模型 | 热度:181 ℃

来自Meta的研究人员发布论文介绍了一种名为Searchformer的新型Transformer模型,它通过一种称为搜索动态引导(search dynamics bootstrapping)的方法,训练Transformer来解决复杂的规划任务。Transformer是一种深度学习模型,通常用于处理自然语言处理(NLP)任务,但这篇论文展示了如何将其应用于决策制定和规划问题。

论文地址:https://arxiv.org/abs/2402.14083

主要功能: Searchformer模型能够解决以前未见过的Sokoban谜题,这是一种需要策略性移动箱子到指定位置的游戏。模型在解决这些谜题时,使用的搜索步骤比传统的A*搜索算法少26.8%,这意味着它找到了一种更高效的解决方案。

主要特点:

  1. 搜索动态引导: 通过模仿A*搜索算法的执行过程,Searchformer学习了如何进行有效的搜索。
  2. 优化搜索步骤: 通过专家迭代(expert iteration)进一步优化,Searchformer能够在保持解决方案最优的同时,减少搜索步骤。
  3. 数据效率: 即使在训练数据较少的情况下,Searchformer也能学习到正确的搜索动态和最优规划。

工作原理: Searchformer模型首先通过生成的A搜索执行跟踪(即搜索动态)来训练,这些跟踪记录了在符号规划过程中任务状态何时被添加到搜索树中。然后,模型通过专家迭代进行微调,以生成更少的搜索步骤,同时仍然生成最优规划。这个过程涉及到将A搜索的执行动态表达为一系列标记序列,这些序列在训练过程中被用来训练Transformer。

具体应用场景:

  1. 迷宫导航: 在迷宫中找到从起点到终点的最短路径。
  2. Sokoban谜题: 解决需要策略性移动箱子到指定位置的谜题。
  3. 其他复杂决策任务: 任何需要多步骤规划和推理的场景,例如路径规划、资源分配等。

总的来说,Searchformer展示了Transformer模型在解决传统上由符号规划器处理的复杂任务方面的潜力,这为未来在更广泛的领域应用Transformer提供了新的可能性。

声明: 猎游人 每天为你带来最新的游戏和硬件打折情报,帮你精心挑选值得玩的游戏,让您的钱花的更值!本站信息大部分来自于网友爆料,如果您发现了优质的游戏或好的价格,不妨爆料给我们吧(谢绝任何商业爆料)! 点此爆料

0条评论

Hi,您需要填写昵称和邮箱!
姓名 (必填)
邮箱 (必填)
网站

暂时木有评论