标签:Iterative RPO
AI
7个月前 (05-01)AI
Meta和纽约大学的研究人员发布论文,这篇论文的主题是关于如何提高大语言模型(LLMs)在推理任务中的表现。研究者们开发了一种迭代推理偏好优化(Iterative Reasoning Preference Optimization,简称Iterative RPO)的方法,这种方法特别关注基于“思维链”(Chain-of... 阅读全文