当前位置：首页 > 优惠 >大语言模型>文章详情

偏好优化算法DiscoPOP：用于改善和控制大型语言模型输出的质量，使其更好地符合人类的价值观和偏好

推荐人：暴走AI| 商城: AI | 10个月前 (06-16)| 分类：大语言模型 | 热度：156 ℃

已关闭评论

偏好优化算法DiscoPOP：用于改善和控制大型语言模型输出的质量，使其更好地符合人类的价值观和偏好

AI

Sakana AI 与剑桥大学、牛津大学的研究人员推出DiscoPOP，如何使用大语言模型来自动发现和优化偏好优化算法。偏好优化算法主要用于改善和控制大型语言模型输出的质量，使其更好地符合人类的价值观和偏好。例如，我们有一个大型语言模型，我们希望它在生成文本时能够更好地符合人类的偏好。传统上，这需要人类专家设计损失函数来指导模型的训练。但在这项研究中，我们让LLM自己提出新的损失函数。例如，LLM可能会提出一个结合逻辑损失和指数损失的新损失函数，这个函数在训练过程中会自动调整，以更好地区分模型选择的文本和拒绝的文本。通过这种方式，我们可以发现以前未知的、性能更优的偏好优化算法，比如论文中提出的DiscoPOP算法。

主要功能：

自动发现算法：利用LLM自动提出并实现新的偏好优化损失函数。
性能评估：基于评估指标（如MT-Bench分数）来测试和选择最佳算法。

主要特点：

无需专家干预：与传统依赖人类专家设计的方法相比，这一过程无需持续的专家人类干预。
迭代优化：通过迭代地提示LLM提出新的损失函数，并对这些函数进行评估和反馈，以优化性能。

工作原理：

初始化上下文：首先使用一些已知的损失函数和它们的性能来“预热”LLM。
LLM查询与解析：接着，向LLM提出问题，接收其以JSON格式返回的新损失函数提案，并进行解析和单元测试。
性能评估：将LLM提出的损失函数用于模型的微调，并在预定的下游任务上评估性能。
迭代改进：根据性能反馈，LLM迭代地改进其提案，直到发现性能最优的损失函数。

具体应用场景：

多轮对话评估：使用MT-Bench等多轮对话评估基准来测试和评估LLM的性能。
文本摘要：训练LLM生成论坛帖子的摘要。
情感生成：训练LLM生成具有积极情感的电影评论文本。

DiscoPOP 偏好优化算法

声明： 猎游人每天为你带来最新的游戏和硬件打折情报，帮你精心挑选值得玩的游戏，让您的钱花的更值！本站信息大部分来自于网友爆料，如果您发现了优质的游戏或好的价格，不妨爆料给我们吧（谢绝任何商业爆料）！点此爆料

上一篇：数据集Recap-DataComp：使用LLaMA-3重新描述网络上的数十亿图像

下一篇：开源视觉-语言-动作模型OpenVLA：多才多艺的机器人大脑，它能够理解人类的语言指令

0条评论

暂时木有评论

猜你喜欢

查看更多商品

我要爆料我的收藏顶部

© Copyright2019-2024 | 版权所有：猎游人| 皖ICP备18025588号-1

快速登录