Cohere发布论文,这篇论文的主题是关于如何更有效地评估大语言模型(LLMs)的生成质量。随着这些模型变得越来越先进,准确评估它们的性能也变得越来越具有挑战性。传统的评估方法,比如使用单一的大型模型(比如GPT-4)作为评判,不仅成本高昂,而且可能会引入模型内部的偏见。为了解决这个问题,研究者们提出了一种新的方法,即利用一个由多个不同模型组成的评估者小组(简称PoLL)来评估语言模型的输出质量。
例如,我们想要评估一个LLM生成的关于“第二次世界大战起因”的答案的质量。使用传统的单一模型评估方法,我们可能会用GPT-4来评判这个答案。但是,如果使用PoLL,我们会将这个答案提交给由不同模型家族(比如Command R, Haiku, 和 GPT-3.5)组成的小组。每个模型都会独立地评估答案,然后它们的评分会被汇总起来,得出一个综合评分。这种方法不仅能够减少GPT-4可能存在的偏见,而且成本更低,因为不需要使用非常大型和昂贵的模型。
主要功能:
- 提供一种更准确、成本效益更高的LLMs输出质量评估方法。
主要特点:
- 多样性:使用多个不同模型家族的小型模型来组成评估者小组,以减少单一模型的偏见。
- 成本效益:相比于使用单一的大型模型,PoLL的方法成本更低。
- 减少偏见:通过集合多个模型的判断,减少了评估过程中的偏见。
工作原理:
PoLL通过以下步骤工作:
- 独立评分:每个评估者模型独立地对给定的模型输出进行评分。
- 聚合评分:然后,这些独立的评分通过一个投票函数被聚合起来,形成最终的评分。
具体应用场景:
- 单步问答(Single-hop QA):模型需要根据问题从知识源中检索证据,并生成答案。
- 多步问答(Multi-hop QA):需要模型执行多轮检索来回答子问题并收集足够的证据来回答初始问题。
- 聊天机器人竞技场(Chatbot Arena):在这个众包的基准测试中,用户可以提示一对匿名的LLMs,并评价哪个输出更好。
通过这种方式,PoLL提供了一种更均衡、更经济的LLMs评估策略,有助于更公平、更准确地衡量模型的性能。
0条评论