Google DeepMind发布论文,主题是探讨如何在大语言模型(LLMs)中量化不确定性,特别是当我们需要判断模型给出的回答是否可靠时。研究者们区分了两种不确定性:认识不确定性(epistemic uncertainty)和随机不确定性(aleatoric uncertainty)。认识不确定性来源于对真实情况(比如事实或语言规则)了解不足,而随机不确定性则来自于问题本身固有的随机性,比如同一个问题可能有多个正确答案。
主要功能与特点:
- 量化不确定性:论文提出了一种基于信息论的度量方法,可以可靠地检测出何时只有认识不确定性较大,这时模型的输出可能是不可靠的。
- 检测幻觉:该方法能够有效检测出LLMs中的“幻觉”情况,即模型给出的高认识不确定性的回答,这些回答可能与现实不符。
- 适用于单答和多答情况:与许多标准不确定性量化策略不同,该方法可以同时处理单答和多答情况。
工作原理:
- 迭代提示:研究者们提出了一种特殊的迭代提示方法,通过基于模型之前的回答来重复提问,从而构建多个回答的联合分布。
- 独立性假设:假设根据真实情况(语言的实际使用),对于同一个问题的多个回答应该是相互独立的。
- 信息论度量:利用信息论中的熵、互信息和Kullback-Leibler散度等概念,来量化模型输出与真实情况之间的差异。
具体应用场景:
- 问答系统:在自动问答系统中,当系统需要确定其提供的答案是否可靠时,可以使用这种方法来评估。
- 教育工具:在教育应用中,可以帮助学生理解模型提供的答案的可信度,从而指导他们进行进一步的研究或学习。
- 内容生成:在需要生成符合特定标准或避免误导性内容的场景中,该方法可以帮助评估生成文本的可靠性。
举例说明:
设想一个情景,你向一个语言模型提问:“英国的首都是什么?”理想情况下,模型会回答“伦敦”。但如果模型回答“巴黎”,这可能是一个“幻觉”。使用论文中的方法,我们可以通过迭代提示模型,比如连续提问:“英国的首都是什么?考虑到之前的错误回答‘巴黎’”,并观察模型是否能够持续给出正确的回答。如果模型在多次迭代后仍然坚持错误答案,这表明模型的认识不确定性很高,其输出可能不可靠。通过这种方法,我们可以更准确地判断模型何时在“幻觉”状态下回答问题。
0条评论