爱丁堡大学、 罗马大学、巴里理工大学、伦敦大学学院、特伦托大学、 AssemblyAI和 英国卫生安全局的研究人员对一个流行的大型多任务语言理解(MMLU)基准测试进行深入分析和纠错,MMLU是用来评估大型语言模型(LLMs)在多种语言任务上的表现,比如历史、数学、计算机科学等领域。但论文作者发现,尽管MMLU被广泛使用,却存在许多错误,这些错误可能会误导我们对LLMs真正能力的理解。
- 论文:https://arxiv.org/pdf/2406.04127
- 数据:https://huggingface.co/datasets/edinburgh-dawg/mmlu-redux
例如,我们有一个关于生物学的问题,在MMLU中,正确答案可能是“D”,但由于错误,它被标注为“B”。通过MMLU-Redux的重新注释,这个问题被纠正,确保了评估的准确性。或者,如果一个问题由于缺乏必要的上下文而无法正确回答,MMLU-Redux也会识别并标注这个问题,以避免误导模型评估。
主要功能和特点:
- 错误识别与分析:论文提出了一个全面的错误识别框架,并定义了一个新的错误分类法,用于识别和分类MMLU中的错误。
- MMLU-Redux创建:作者手动重新注释了MMLU中的3000个问题,覆盖30个不同主题,创建了一个更准确的子集,称为MMLU-Redux。
- 性能评估影响:使用MMLU-Redux重新评估了领先的LLMs,发现性能指标显著变化,甚至改变了模型的排名。
工作原理:
- 作者首先对MMLU数据集中的问题进行手动分析,使用他们开发的错误分类法来识别问题。
- 识别出的错误类型包括问题表述不清晰、选项不明确或错误、正确答案与给定答案不符等。
- 通过人工重新注释和验证,创建了MMLU-Redux,以提供更可靠的基准测试数据集。
具体应用场景:
- 模型评估:MMLU-Redux可以用来更准确地评估语言模型在不同任务上的表现。
- 错误检测:研究者和开发者可以利用MMLU-Redux来训练和测试错误检测算法,提高自然语言处理(NLP)数据集的质量和可靠性。
- 社区贡献:作者公开了MMLU-Redux,并邀请社区参与进一步的注释工作,以扩展和丰富数据集。
0条评论