大型多任务语言理解(MMLU)基准测试进行深入分析和纠错

分类:大语言模型 | 热度:81 ℃

爱丁堡大学、 罗马大学、巴里理工大学、伦敦大学学院、特伦托大学、 AssemblyAI和 英国卫生安全局的研究人员对一个流行的大型多任务语言理解(MMLU)基准测试进行深入分析和纠错,MMLU是用来评估大型语言模型(LLMs)在多种语言任务上的表现,比如历史、数学、计算机科学等领域。但论文作者发现,尽管MMLU被广泛使用,却存在许多错误,这些错误可能会误导我们对LLMs真正能力的理解。

  • 论文:https://arxiv.org/pdf/2406.04127
  • 数据:https://huggingface.co/datasets/edinburgh-dawg/mmlu-redux

例如,我们有一个关于生物学的问题,在MMLU中,正确答案可能是“D”,但由于错误,它被标注为“B”。通过MMLU-Redux的重新注释,这个问题被纠正,确保了评估的准确性。或者,如果一个问题由于缺乏必要的上下文而无法正确回答,MMLU-Redux也会识别并标注这个问题,以避免误导模型评估。

主要功能和特点

  1. 错误识别与分析:论文提出了一个全面的错误识别框架,并定义了一个新的错误分类法,用于识别和分类MMLU中的错误。
  2. MMLU-Redux创建:作者手动重新注释了MMLU中的3000个问题,覆盖30个不同主题,创建了一个更准确的子集,称为MMLU-Redux。
  3. 性能评估影响:使用MMLU-Redux重新评估了领先的LLMs,发现性能指标显著变化,甚至改变了模型的排名。

工作原理

  • 作者首先对MMLU数据集中的问题进行手动分析,使用他们开发的错误分类法来识别问题。
  • 识别出的错误类型包括问题表述不清晰、选项不明确或错误、正确答案与给定答案不符等。
  • 通过人工重新注释和验证,创建了MMLU-Redux,以提供更可靠的基准测试数据集。

具体应用场景

  • 模型评估:MMLU-Redux可以用来更准确地评估语言模型在不同任务上的表现。
  • 错误检测:研究者和开发者可以利用MMLU-Redux来训练和测试错误检测算法,提高自然语言处理(NLP)数据集的质量和可靠性。
  • 社区贡献:作者公开了MMLU-Redux,并邀请社区参与进一步的注释工作,以扩展和丰富数据集。
声明: 猎游人 每天为你带来最新的游戏和硬件打折情报,帮你精心挑选值得玩的游戏,让您的钱花的更值!本站信息大部分来自于网友爆料,如果您发现了优质的游戏或好的价格,不妨爆料给我们吧(谢绝任何商业爆料)! 点此爆料

0条评论

Hi,您需要填写昵称和邮箱!
姓名 (必填)
邮箱 (必填)
网站

暂时木有评论