Sakana AI 与 剑桥大学、牛津大学的研究人员推出DiscoPOP,如何使用大语言模型来自动发现和优化偏好优化算法。偏好优化算法主要用于改善和控制大型语言模型输出的质量,使其更好地符合人类的价值观和偏好。例如,我们有一个大型语言模型,我们希望它在生成文本时能够更好地符合人类的偏好。传统上,这需要人类专家设计损失函数来指导模型的训练。但在这项研究中,我们让LLM自己提出新的损失函数。例如,LLM可能会提出一个结合逻辑损失和指数损失的新损失函数,这个函数在训练过程中会自动调整,以更好地区分模型选择的文本和拒绝的文本。通过这种方式,我们可以发现以前未知的、性能更优的偏好优化算法,比如论文中提出的DiscoPOP算法。
主要功能:
- 自动发现算法:利用LLM自动提出并实现新的偏好优化损失函数。
- 性能评估:基于评估指标(如MT-Bench分数)来测试和选择最佳算法。
主要特点:
- 无需专家干预:与传统依赖人类专家设计的方法相比,这一过程无需持续的专家人类干预。
- 迭代优化:通过迭代地提示LLM提出新的损失函数,并对这些函数进行评估和反馈,以优化性能。
工作原理:
- 初始化上下文:首先使用一些已知的损失函数和它们的性能来“预热”LLM。
- LLM查询与解析:接着,向LLM提出问题,接收其以JSON格式返回的新损失函数提案,并进行解析和单元测试。
- 性能评估:将LLM提出的损失函数用于模型的微调,并在预定的下游任务上评估性能。
- 迭代改进:根据性能反馈,LLM迭代地改进其提案,直到发现性能最优的损失函数。
具体应用场景:
- 多轮对话评估:使用MT-Bench等多轮对话评估基准来测试和评估LLM的性能。
- 文本摘要:训练LLM生成论坛帖子的摘要。
- 情感生成:训练LLM生成具有积极情感的电影评论文本。
0条评论