中国人民大学高岭人工智能学院和北京邮电大学人工智能学院的研究人员推出新技术框架DPA-RAG(Dual Preference Alignment for Retrieval-Augmented Generation),旨在解决大语言模型(LLMs)在进行检索增强型生成任务时面临的知识偏好不一致问题。简单来说,大型语言模型在回答问题时,不仅依赖于自身的知识库,还需要检索外部信息来辅助生成更准确的答案。然而,检索到的文档可能与模型的内在知识偏好不匹配,导致生成的答案出现错误或偏差。
- GitHub:https://github.com/dongguanting/DPA-RAG
例如,我们有一个问题:“梵高的国籍是什么?”一个传统的检索增强型模型可能会检索到关于梵高和他的弟弟Theo van Gogh的信息,但这些信息可能混杂,导致模型生成错误答案。DPA-RAG通过偏好对齐,能够识别和优先考虑与问题最相关的文档,从而帮助模型正确推断出梵高是荷兰人。
主要功能:
- 双重偏好对齐:DPA-RAG通过外部和内部对齐策略,确保检索到的文档与模型的知识偏好相匹配。
- 提高生成答案的质量:通过偏好对齐,提高模型生成答案的准确性和一致性。
主要特点:
- 通用性:DPA-RAG作为一个通用框架,适用于各种知识密集型的问答(QA)任务。
- 无需额外训练数据:该框架不需要额外的训练数据,而是通过构建偏好知识数据集来实现对齐。
工作原理:
- 偏好知识构建:首先,DPA-RAG通过分析模型的推理偏好,提取对其有显著影响的知识。
- 查询增强:引入五种新颖的查询增强策略,丰富偏好数据集,并进行质量过滤。
- 重排器与LLM对齐:设计多粒度的对齐任务,通过多任务优化方法,训练一个与LLM偏好对齐的重排器。
- LLM自对齐:在标准监督微调(SFT)之前,引入预对齐阶段,让LLMs从多个文档中隐式学习与其推理偏好一致的知识。
具体应用场景:
- 知识问答系统:在需要准确回答复杂问题的场景下,如在线客服、虚拟助手等。
- 教育和学习:辅助学生和研究人员获取准确和深入的知识信息。
- 内容创作:帮助内容创作者获取相关信息,生成高质量的内容。
这项技术通过改善模型与检索文档之间的知识对齐,提高了大型语言模型在多种知识密集型任务中的可靠性和准确性。
0条评论