艾伦人工智能研究所和华盛顿大学的研究人员推出评估框架WildBench,它专门用来测试和比较大语言模型在处理现实世界中用户提出的复杂查询方面的能力。论文还讨论了WildBench与传统评估方法相比的优势,例如它如何通过使用真实用户数据来提供更全面的评估,并且如何通过动态更新任务集来适应LLMs不断变化的能力。此外,论文还提到了WildBench在评估过程中如何减少长度偏差,确保评估的公正性。
- GitHub:https://github.com/allenai/WildBench
- HF Demo:https://huggingface.co/spaces/allenai/WildBench
例如,你有一个智能助手,你可以问它任何问题,比如“我想要找出电子表格中与当前工作表B1单元格值匹配的最后一个值,并返回该行B列的值”,然后智能助手需要给出正确的公式或方法来解决这个问题。WildBench就是用来评估这些智能助手在真实对话场景中的表现。
主要功能:
- 自动化评估:使用先进的LLMs(如GPT-4-turbo)自动评估其他LLMs的回答质量。
- 真实世界任务:评估任务是从超过一百万人类与聊天机器人的对话日志中精选出来的,反映了真实用户的需求。
主要特点:
- 真实用户查询:与通常由专家设计的问题不同,WildBench使用真实用户提出的任务。
- 动态更新:定期更新任务集,以保持与LLMs发展能力的相关性。
- 评估指标:引入了两个新的评估指标,WB-Reward和WB-Score,用于更可靠和可解释的自动判断。
工作原理:
- 任务特定清单:使用任务特定的清单来引导LLMs生成一致和可靠的判断。
- 成对比较:WB-Reward通过成对比较模型响应,生成五种可能的结果:明显更好、稍微更好、稍微更差、明显更差或平局。
- 个体评分:WB-Score单独评估每个模型的输出质量,是一种快速且成本效益高的评估指标。
具体应用场景:
- 模型比较:研究人员和开发人员可以使用WildBench来比较不同LLMs在处理复杂任务方面的表现。
- 性能评估:通过WildBench的评估结果,可以识别出模型在特定任务类别(如编码、数学、创造性写作等)上的优势和不足。
- 开发改进:根据WildBench提供的反馈,LLMs的开发者可以对模型进行针对性的改进和优化。
0条评论