来自复旦大学的研究人员推出一种基于多智能体协作的大语言模型(LLM)扩展方法LONGAGENT,LONGAGENT的目标是解决大语言模型在处理长文本时遇到的高昂训练成本和推理延迟问题。通过这种方法,大语言模型能够处理超过100k(10万个)token的长文本,这在传统的大语言模型中是一个挑战,因为它们通常在处理超过这个长度的输入时会出现性能下降。
论文地址:https://arxiv.org/abs/2402.11550
主要功能:
LONGAGENT的核心功能是将具有4k(4000个)token上下文窗口的LLM扩展到能够处理128k token的长文本。它通过创建一个由领导者和多个成员组成的智能体团队来实现这一目标。领导者负责理解用户意图,指导团队成员从文档中获取信息,并解决成员之间的冲突。
主要特点:
- 多智能体协作:系统由一个领导者和多个成员组成,每个成员负责处理文本的不同部分。
- 领导者与成员的互动:领导者根据任务需求分配任务给成员,并在成员之间协调沟通,以解决由于幻觉(hallucinations)导致的回答冲突。
- 处理长文本的能力:通过分块处理长文本,LONGAGENT能够有效地处理超过100k token的长文本,避免了传统的“lost in the middle”现象。
工作原理: LONGAGENT的工作原理包括以下几个步骤:
- 成员选择:根据任务描述,领导者选择合适的专家模型来构建团队成员。
- 协作推理:领导者将用户查询分解为多个子问题,并组织成员协作寻找答案。
- 解决冲突:如果成员之间出现回答冲突,领导者会通过成员间的直接交流来消除幻觉回答。
- 推导答案:当领导者认为收集到的信息足够时,结束讨论并提供最终答案。
具体应用场景: LONGAGENT可以应用于多种需要处理长文本的场景,例如:
- 信息检索:从大量文档中检索特定信息。
- 法律文档分析:分析长篇幅的法律文件以提取关键信息。
- 科学论文阅读:理解并回答关于科学论文内容的问题。
- 多文档问答:结合多个文档来回答复杂问题。
总的来说,LONGAGENT通过多智能体协作的方式,有效地扩展了LLM的能力,使其能够处理更长的文本,同时保持了高效的推理性能。
0条评论