当前位置：首页 > 优惠 >大语言模型>文章详情

如何在大语言模型中量化不确定性，特别是当我们需要判断模型给出的回答是否可靠时

推荐人：暴走AI| 商城: AI | 1年前 (2024-06-06)| 分类：大语言模型 | 热度：342 ℃

已关闭评论

Google DeepMind发布论文，主题是探讨如何在大语言模型（LLMs）中量化不确定性，特别是当我们需要判断模型给出的回答是否可靠时。研究者们区分了两种不确定性：认识不确定性（epistemic uncertainty）和随机不确定性（aleatoric uncertainty）。认识不确定性来源于对真实情况（比如事实或语言规则）了解不足，而随机不确定性则来自于问题本身固有的随机性，比如同一个问题可能有多个正确答案。

主要功能与特点：

量化不确定性：论文提出了一种基于信息论的度量方法，可以可靠地检测出何时只有认识不确定性较大，这时模型的输出可能是不可靠的。
检测幻觉：该方法能够有效检测出LLMs中的“幻觉”情况，即模型给出的高认识不确定性的回答，这些回答可能与现实不符。
适用于单答和多答情况：与许多标准不确定性量化策略不同，该方法可以同时处理单答和多答情况。

工作原理：

迭代提示：研究者们提出了一种特殊的迭代提示方法，通过基于模型之前的回答来重复提问，从而构建多个回答的联合分布。
独立性假设：假设根据真实情况（语言的实际使用），对于同一个问题的多个回答应该是相互独立的。
信息论度量：利用信息论中的熵、互信息和Kullback-Leibler散度等概念，来量化模型输出与真实情况之间的差异。

具体应用场景：

问答系统：在自动问答系统中，当系统需要确定其提供的答案是否可靠时，可以使用这种方法来评估。
教育工具：在教育应用中，可以帮助学生理解模型提供的答案的可信度，从而指导他们进行进一步的研究或学习。
内容生成：在需要生成符合特定标准或避免误导性内容的场景中，该方法可以帮助评估生成文本的可靠性。

举例说明：

设想一个情景，你向一个语言模型提问：“英国的首都是什么？”理想情况下，模型会回答“伦敦”。但如果模型回答“巴黎”，这可能是一个“幻觉”。使用论文中的方法，我们可以通过迭代提示模型，比如连续提问：“英国的首都是什么？考虑到之前的错误回答‘巴黎’”，并观察模型是否能够持续给出正确的回答。如果模型在多次迭代后仍然坚持错误答案，这表明模型的认识不确定性很高，其输出可能不可靠。通过这种方法，我们可以更准确地判断模型何时在“幻觉”状态下回答问题。

好 (0 )

不好 (0 )

大语言模型