当前位置：首页 > 优惠 >大语言模型>文章详情

基准测试集LongICLBench：大语言模型在处理长篇幅上下文学习任务时的表现

推荐人：暴走AI| 商城: AI | 1年前 (2024-04-03)| 分类：大语言模型 | 热度：308 ℃

已关闭评论

基准测试集LongICLBench：大语言模型在处理长篇幅上下文学习任务时的表现

来自滑铁卢大学、卡内基·梅隆大学和Vector Institute探讨了大语言模型（LLMs）在处理长篇幅上下文学习任务时的表现。研究者们发现，尽管LLMs在处理短上下文任务时表现出色，但当上下文长度增加时，它们的性能会显著下降。为了更全面地评估LLMs在长上下文学习中的能力，研究者们创建了一个专门的基准测试集LongICLBench，专注于极端标签分类任务。

例如，假设有一个客户服务查询：“我的账户余额不足，我需要转账。”一个训练有素的LLM可以通过理解这个查询的上下文来识别出客户的意图是“资金转账”。然而，如果上下文变得更长更复杂，例如包含多个账户操作的详细描述，LLM可能就会遇到困难，无法准确识别出意图。这项研究表明，LLMs在处理这类长上下文任务时仍然存在局限性，需要进一步的研究和改进。

主要功能和特点：

长上下文学习评估： LongICLBench包含了六个不同难度级别的数据集，涵盖了从28到174个类别的标签范围，以及从2K到50K令牌的不同输入长度。
性能下降分析： 研究显示，随着任务难度的增加（例如需要更长的示范长度），LLMs的性能普遍下降。在最具挑战性的任务上，所有LLMs都难以理解任务定义，性能接近零。
标签位置的敏感性： 分析发现，模型倾向于预测在序列末尾出现的标签，这表明LLMs在处理长序列中的多个部分时的推理能力还有待提高。

工作原理：