当前位置：首页 > 优惠 >大语言模型>文章详情

Stream of Search (SoS)：大语言模型如何在解决问题时进行搜索和推理

推荐人：暴走AI| 商城: AI | 1年前 (2024-04-08)| 分类：大语言模型 | 热度：402 ℃

已关闭评论

Stream of Search (SoS)：大语言模型如何在解决问题时进行搜索和推理

斯坦福大学的研究人员推出Stream of Search (SoS)，它教会语言模型如何在解决问题时进行搜索和推理。通常，大语言模型在训练时只接触到正确的解决方案，而不会看到错误或者寻找解决方案的过程。这就像是只学习到了如何走到目的地，而没有学习如何在路上迷路和找回方向。SoS方法通过将搜索过程表示为一系列的文本信息（即“流搜索”），让模型能够学习如何探索不同的解决方案，甚至在遇到死胡同时能够回退并尝试其他路径。SoS方法通过让语言模型“看到”解决问题的整个过程，包括错误的尝试和成功的策略，使模型能够更加灵活和有效地处理各种问题。

GitHub：https://github.com/kanishkg/stream-of-search
论文：https://arxiv.org/abs/2404.03683

主要功能和特点：

学习搜索和回退：SoS方法让语言模型能够学习在解决问题时如何进行探索、回退和尝试不同的策略。
统一的搜索语言：研究者们创建了一种统一的语言来表示搜索过程中的各种策略，如探索、回退和剪枝。
自我改进：通过策略改进方法，如Advantage-Induced Policy Alignment (APA) 和 Self-Taught Reasoner (STaR)，模型能够自我优化，提高解决问题的准确性。

工作原理：

预训练：首先，研究者们使用不同的启发式搜索算法生成了一系列的搜索轨迹数据集，然后在这个数据集上从头开始训练一个基于Transformer的语言模型。
策略改进：接着，使用两种策略改进方法进一步训练模型，提高其解决问题的能力。APA方法通过增加一个价值网络来指导模型改进策略，而STaR方法则通过迭代地使用正确的解决方案来微调模型。

具体应用场景：