来自Meta的研究人员发布论文介绍了一种名为Searchformer的新型Transformer模型,它通过一种称为搜索动态引导(search dynamics bootstrapping)的方法,训练Transformer来解决复杂的规划任务。Transformer是一种深度学习模型,通常用于处理自然语言处理(NLP)任务,但这篇论文展示了如何将其应用于决策制定和规划问题。
论文地址:https://arxiv.org/abs/2402.14083
主要功能: Searchformer模型能够解决以前未见过的Sokoban谜题,这是一种需要策略性移动箱子到指定位置的游戏。模型在解决这些谜题时,使用的搜索步骤比传统的A*搜索算法少26.8%,这意味着它找到了一种更高效的解决方案。
主要特点:
- 搜索动态引导: 通过模仿A*搜索算法的执行过程,Searchformer学习了如何进行有效的搜索。
- 优化搜索步骤: 通过专家迭代(expert iteration)进一步优化,Searchformer能够在保持解决方案最优的同时,减少搜索步骤。
- 数据效率: 即使在训练数据较少的情况下,Searchformer也能学习到正确的搜索动态和最优规划。
工作原理: Searchformer模型首先通过生成的A搜索执行跟踪(即搜索动态)来训练,这些跟踪记录了在符号规划过程中任务状态何时被添加到搜索树中。然后,模型通过专家迭代进行微调,以生成更少的搜索步骤,同时仍然生成最优规划。这个过程涉及到将A搜索的执行动态表达为一系列标记序列,这些序列在训练过程中被用来训练Transformer。
具体应用场景:
- 迷宫导航: 在迷宫中找到从起点到终点的最短路径。
- Sokoban谜题: 解决需要策略性移动箱子到指定位置的谜题。
- 其他复杂决策任务: 任何需要多步骤规划和推理的场景,例如路径规划、资源分配等。
总的来说,Searchformer展示了Transformer模型在解决传统上由符号规划器处理的复杂任务方面的潜力,这为未来在更广泛的领域应用Transformer提供了新的可能性。
0条评论