当前位置：首页 > 优惠 >大语言模型>文章详情

创新的模型融合框架FUSECHAT：减少从头开始训练新模型所需的高昂成本，并利用多个模型的优势

推荐人：暴走AI| 商城: AI | 1年前 (2024-02-27)| 分类：大语言模型 | 热度：477 ℃

已关闭评论

创新的模型融合框架FUSECHAT：减少从头开始训练新模型所需的高昂成本，并利用多个模型的优势

AI

中山大学的研究人员发布论文介绍了一个名为FUSECHAT的模型，它的目标是将多个现有的大型语言模型（LLMs）融合成一个更强大、更健壮的模型。这种融合方法可以减少从头开始训练新模型所需的高昂成本，并利用多个模型的优势。

GitHub：https://github.com/fanqiwan/FuseLLM

模型地址：https://huggingface.co/FuseAI

主要功能：

FUSECHAT通过轻量级的持续训练，将多个结构和规模不同的源LLMs的知识融合到目标LLMs中。
它采用了一种新颖的方法（VARM，即变化比率合并）来确定合并权重，这些权重基于微调前后参数矩阵的变化比率。

主要特点：

FUSECHAT提供了比FUSELLM更高的可扩展性和灵活性，能够处理不同大小的源聊天LLMs。
它支持即插即用地集成新源LLMs，只需获取新源LLMs的目标LLM并将其与现有版本的FUSECHAT合并。
实验结果表明，FUSECHAT在多个聊天领域的表现优于7B和34B规模的广泛聊天LLMs，甚至超过了GPT-3.5（March）并接近Mixtral-8x7B-Instruct。

工作原理：

首先，FUSECHAT选择一个源LLM作为基准，然后与其他源LLMs进行成对知识融合，通过轻量级微调得到多个具有相同结构和大小的目标LLMs。
然后，这些目标LLMs在参数空间内合并，使用VARM方法根据微调前后参数矩阵的变化比率来确定合并权重。

具体应用场景：

FUSECHAT可以应用于需要处理多轮对话的场景，例如客户服务聊天机器人、虚拟助手或者在线教育平台的互动学习助手。
它可以帮助这些系统更好地理解和回应用户的需求，提供更准确、更丰富的信息和服务。

总的来说，FUSECHAT是一个创新的模型融合框架，它通过结合多个LLMs的优势，提高了模型的性能和适应性，同时降低了训练成本。

FUSECHAT 大模型

声明： 猎游人每天为你带来最新的游戏和硬件打折情报，帮你精心挑选值得玩的游戏，让您的钱花的更值！本站信息大部分来自于网友爆料，如果您发现了优质的游戏或好的价格，不妨爆料给我们吧（谢绝任何商业爆料）！点此爆料

上一篇：通用模型StructLM：通过指令调整和大规模数据集训练，提高了大语言模型在结构化知识接地任务上的性能

下一篇：大语言模型（LLMs）是否能够在处理复杂提示时潜在地执行多跳推理

0条评论

暂时木有评论

猜你喜欢

查看更多商品

我要爆料我的收藏顶部

© Copyright2019-2024 | 版权所有：猎游人| 皖ICP备18025588号-1

快速登录