当前位置：首页 > 优惠 >大语言模型>文章详情

大型多任务语言理解（MMLU）基准测试进行深入分析和纠错

推荐人：暴走AI| 商城: AI | 1年前 (2024-06-17)| 分类：大语言模型 | 热度：358 ℃

已关闭评论

大型多任务语言理解（MMLU）基准测试进行深入分析和纠错

AI

爱丁堡大学、罗马大学、巴里理工大学、伦敦大学学院、特伦托大学、 AssemblyAI和英国卫生安全局的研究人员对一个流行的大型多任务语言理解（MMLU）基准测试进行深入分析和纠错，MMLU是用来评估大型语言模型（LLMs）在多种语言任务上的表现，比如历史、数学、计算机科学等领域。但论文作者发现，尽管MMLU被广泛使用，却存在许多错误，这些错误可能会误导我们对LLMs真正能力的理解。

论文：https://arxiv.org/pdf/2406.04127
数据：https://huggingface.co/datasets/edinburgh-dawg/mmlu-redux

例如，我们有一个关于生物学的问题，在MMLU中，正确答案可能是“D”，但由于错误，它被标注为“B”。通过MMLU-Redux的重新注释，这个问题被纠正，确保了评估的准确性。或者，如果一个问题由于缺乏必要的上下文而无法正确回答，MMLU-Redux也会识别并标注这个问题，以避免误导模型评估。

主要功能和特点：

错误识别与分析：论文提出了一个全面的错误识别框架，并定义了一个新的错误分类法，用于识别和分类MMLU中的错误。
MMLU-Redux创建：作者手动重新注释了MMLU中的3000个问题，覆盖30个不同主题，创建了一个更准确的子集，称为MMLU-Redux。
性能评估影响：使用MMLU-Redux重新评估了领先的LLMs，发现性能指标显著变化，甚至改变了模型的排名。

工作原理：

作者首先对MMLU数据集中的问题进行手动分析，使用他们开发的错误分类法来识别问题。
识别出的错误类型包括问题表述不清晰、选项不明确或错误、正确答案与给定答案不符等。
通过人工重新注释和验证，创建了MMLU-Redux，以提供更可靠的基准测试数据集。

具体应用场景：

模型评估：MMLU-Redux可以用来更准确地评估语言模型在不同任务上的表现。
错误检测：研究者和开发者可以利用MMLU-Redux来训练和测试错误检测算法，提高自然语言处理（NLP）数据集的质量和可靠性。
社区贡献：作者公开了MMLU-Redux，并邀请社区参与进一步的注释工作，以扩展和丰富数据集。

MMLU 大型多任务语言

声明： 猎游人每天为你带来最新的游戏和硬件打折情报，帮你精心挑选值得玩的游戏，让您的钱花的更值！本站信息大部分来自于网友爆料，如果您发现了优质的游戏或好的价格，不妨爆料给我们吧（谢绝任何商业爆料）！点此爆料

上一篇： ECO：让大语言模型“忘记”它们所学到的某些知识

下一篇：新型视觉变换器家族Hibou：专门用于病理学领域

0条评论

暂时木有评论

猜你喜欢

查看更多商品

我要爆料我的收藏顶部

© Copyright2019-2024 | 版权所有：猎游人| 皖ICP备18025588号-1

快速登录