STEP-DPO

优惠 STEP-DPO:解决大语言模型在进行长链条数学推理时所面临的挑战

  • STEP-DPO:解决大语言模型在进行长链条数学推理时所面临的挑战
    AI
  • 香港中文大学、哈尔滨工业大学(深圳)和SmartMore的研究人员推出新方法STEP-DPO(Step-wise Preference Optimization),它旨在解决大语言模型(LLMs)在进行长链条数学推理时所面临的挑战。长链条数学推理要求模型进行一系列精确且连贯的逻辑步骤,以确保最终答案的正确性。然而,现有... 阅读全文