Step-Controlled DPO

栏目分类

优惠 Step-Controlled DPO：提升大语言模型在数学推理等下游任务上的表现

推荐人：暴走AI 标签：Step-Controlled DPO AI

10个月前 (07-02)AI

香港中文大学多媒体实验室推出新方法Step-Controlled DPO（SCDPO），用于提升大语言模型（LLMs）在数学推理等下游任务上的表现。例如，我们有一个超级聪明的电脑助手，它可以理解和解决复杂的数学问题，但有时它可能会在解题过程中出错。SCDPO的作用就是帮助这个电脑助手更准确地理解问题并找到正确的解题步骤... 阅读全文

直达链接好 0 不好 0 已关闭评论

推荐类别

栏目分类

开源软件

人工智能

电脑游戏

主机游戏

手机游戏

优惠 Step-Controlled DPO：提升大语言模型在数学推理等下游任务上的表现