当前位置：首页 > 优惠 >大语言模型>文章详情

新型大语言模型（LLMs）的自我探索方法SELM（自探索语言模型）

推荐人：暴走AI| 商城: AI | 11个月前 (06-01)| 分类：大语言模型 | 热度：159 ℃

已关闭评论

新型大语言模型（LLMs）的自我探索方法SELM（自探索语言模型）

AI

西北大学和微软的研究人员推出一种新型大语言模型（LLMs）的自我探索方法，称为“自探索语言模型”（Self-Exploring Language Models，简称SELM）。这种方法专门用于在线对齐大型语言模型，即通过人类的反馈来调整和优化语言模型的行为，使其更好地遵循人类的意图。实验结果表明，当SELM应用于Zephyr-7B-SFT和Llama-38B-Instruct模型时，在遵循指令的基准测试（如MT-Bench和AlpacaEval 2.0）以及不同设置下的各种标准学术基准测试中，性能都有显著提升。这证明了SELM在提高大型语言模型的对齐度和能力方面是有效的。

GitHub：https://github.com/shenao-zhang/SELM

主要功能和特点：

主动探索：与以往被动地从模型生成的响应中随机采样不同，SELM通过主动探索来寻找可能带来高回报的新颖响应。
双层优化目标：SELM采用双层优化目标，其中上层优化目标是增加潜在高回报响应的可能性，而下层优化目标是调整语言模型以适应这些潜在的高回报响应。
乐观偏差：SELM在优化过程中引入了一个乐观项（optimism term），这有助于模型在探索时偏向于那些可能带来更高回报的区域。
无需单独的奖励模型：SELM不需要单独训练一个奖励模型（RM），而是直接更新语言模型，简化了迭代过程。

工作原理：

SELM的工作原理可以概括为以下几个步骤：

数据集划分：将离线偏好数据集分成几个部分，每次迭代使用其中一部分。
生成响应：使用参考模型（如经过监督式微调的模型）生成响应。
排名和更新：对生成的响应进行排名，并更新数据集以包含最佳（被选择）和最差（被拒绝）的响应。
训练语言模型：通过解决内层问题并重参数化奖励函数，训练语言模型以最大化期望回报，同时减少与参考模型的偏差。
迭代优化：通过迭代过程，逐步优化语言模型，使其更好地对齐人类偏好。

具体应用场景：

SELM的应用场景包括但不限于：

指令遵循：在聊天机器人或智能助手中，SELM可以帮助模型更好地理解和遵循用户的指令。
学术基准测试：在需要模型回答学术问题的场景中，如多项选择题的问答系统，SELM可以提高模型的准确性。
语言模型微调：在需要根据特定任务对语言模型进行微调的场景中，SELM可以作为一种有效的在线对齐方法。
人机交互系统：在任何需要模型生成多样化、高质量响应的人机交互系统中，SELM都能发挥作用。

SELM 自探索语言模型

声明： 猎游人每天为你带来最新的游戏和硬件打折情报，帮你精心挑选值得玩的游戏，让您的钱花的更值！本站信息大部分来自于网友爆料，如果您发现了优质的游戏或好的价格，不妨爆料给我们吧（谢绝任何商业爆料）！点此爆料

上一篇：谷歌推出一种新的强化学习方法VPO（价值激励的偏好优化）：适用于在线和离线环境中的人类反馈强化学习

下一篇：新型大型双语语言模型系列MAP-Neo：提供高性能和透明度，以推动大语言模型的研究和应用，同时解决现有商业模型不公开透明的问题

0条评论

暂时木有评论

猜你喜欢

查看更多商品

我要爆料我的收藏顶部

© Copyright2019-2024 | 版权所有：猎游人| 皖ICP备18025588号-1

快速登录