来自滑铁卢大学、卡内基梅隆大学和Meta的研究人员推出FLAME,提高大语言模型(LLMs)在遵循自然语言指令时的事实准确性。大语言模型(比如常见的聊天机器人或者智能助手)在被训练去更好地遵循指令时,有时会生成一些错误的事实信息,这就像是它们在“幻想”或“虚构”一些不存在的事情。这篇论文研究了如何改进这一过程,使得这些模型在提供帮助的同时,也能够确保其回答更加真实和准确。
例如,你问你的智能助手一个关于历史事件的问题,比如“美国独立战争的重要性是什么?”你希望得到一个准确描述事件、原因和影响的回答。但是,如果智能助手没有被正确地训练,它可能会告诉你一些错误或虚构的信息。这篇论文就是关于如何训练这些智能助手,以确保它们提供的信息是真实和准确的。
主要功能:
- 提高事实准确性:确保语言模型在遵循指令时提供真实准确的信息。
- 减少幻想:减少模型在生成回答时产生的错误或虚构事实。
主要特点:
- 事实感知对齐(Factuality-Aware Alignment):通过识别导致幻想的因素,提出了一种新的对齐方法,以提高模型的事实准确性。
- 监督式微调(Supervised Fine-Tuning, SFT):使用高质量的人类生成的回答作为训练数据,但避免引入模型未知的新知识。
- 强化学习(Reinforcement Learning, RL):通过直接偏好优化(Direct Preference Optimization, DPO),创建额外的偏好对,专注于事实准确性。
工作原理:
- 识别问题:首先识别出在SFT和RL过程中可能导致模型产生幻想的因素。
- 事实感知SFT:在SFT阶段,对于需要事实回答的指令,使用模型自身生成的训练数据,而不是人类生成的数据,以避免引入未知知识。
- 事实感知RL:在RL阶段,创建专注于事实性的偏好对,并将这些与标准指令遵循偏好对结合,通过DPO进行训练。
具体应用场景:
- 智能助手:在提供帮助和信息时,确保智能助手的回答是基于事实的。
- 教育工具:在教育环境中,确保自动生成的内容是准确无误的。
- 信息验证:在需要验证信息真实性的场合,比如新闻编辑或历史研究,提高信息的准确性。
- 问答系统:在问答系统中,提高自动回答的准确性,减少错误信息的传播。
0条评论