中山大学的研究人员发布论文介绍了一个名为FUSECHAT的模型,它的目标是将多个现有的大型语言模型(LLMs)融合成一个更强大、更健壮的模型。这种融合方法可以减少从头开始训练新模型所需的高昂成本,并利用多个模型的优势。
GitHub:https://github.com/fanqiwan/FuseLLM
模型地址:https://huggingface.co/FuseAI
主要功能:
- FUSECHAT通过轻量级的持续训练,将多个结构和规模不同的源LLMs的知识融合到目标LLMs中。
- 它采用了一种新颖的方法(VARM,即变化比率合并)来确定合并权重,这些权重基于微调前后参数矩阵的变化比率。
主要特点:
- FUSECHAT提供了比FUSELLM更高的可扩展性和灵活性,能够处理不同大小的源聊天LLMs。
- 它支持即插即用地集成新源LLMs,只需获取新源LLMs的目标LLM并将其与现有版本的FUSECHAT合并。
- 实验结果表明,FUSECHAT在多个聊天领域的表现优于7B和34B规模的广泛聊天LLMs,甚至超过了GPT-3.5(March)并接近Mixtral-8x7B-Instruct。
工作原理:
- 首先,FUSECHAT选择一个源LLM作为基准,然后与其他源LLMs进行成对知识融合,通过轻量级微调得到多个具有相同结构和大小的目标LLMs。
- 然后,这些目标LLMs在参数空间内合并,使用VARM方法根据微调前后参数矩阵的变化比率来确定合并权重。
具体应用场景:
- FUSECHAT可以应用于需要处理多轮对话的场景,例如客户服务聊天机器人、虚拟助手或者在线教育平台的互动学习助手。
- 它可以帮助这些系统更好地理解和回应用户的需求,提供更准确、更丰富的信息和服务。
总的来说,FUSECHAT是一个创新的模型融合框架,它通过结合多个LLMs的优势,提高了模型的性能和适应性,同时降低了训练成本。
0条评论