基准测试集LongICLBench:大语言模型在处理长篇幅上下文学习任务时的表现

分类:大语言模型 | 热度:133 ℃

来自滑铁卢大学、卡内基·梅隆大学和Vector Institute探讨了大语言模型(LLMs)在处理长篇幅上下文学习任务时的表现。研究者们发现,尽管LLMs在处理短上下文任务时表现出色,但当上下文长度增加时,它们的性能会显著下降。为了更全面地评估LLMs在长上下文学习中的能力,研究者们创建了一个专门的基准测试集LongICLBench,专注于极端标签分类任务。

例如,假设有一个客户服务查询:“我的账户余额不足,我需要转账。”一个训练有素的LLM可以通过理解这个查询的上下文来识别出客户的意图是“资金转账”。然而,如果上下文变得更长更复杂,例如包含多个账户操作的详细描述,LLM可能就会遇到困难,无法准确识别出意图。这项研究表明,LLMs在处理这类长上下文任务时仍然存在局限性,需要进一步的研究和改进。

主要功能和特点:

  • 长上下文学习评估: LongICLBench包含了六个不同难度级别的数据集,涵盖了从28到174个类别的标签范围,以及从2K到50K令牌的不同输入长度。
  • 性能下降分析: 研究显示,随着任务难度的增加(例如需要更长的示范长度),LLMs的性能普遍下降。在最具挑战性的任务上,所有LLMs都难以理解任务定义,性能接近零。
  • 标签位置的敏感性: 分析发现,模型倾向于预测在序列末尾出现的标签,这表明LLMs在处理长序列中的多个部分时的推理能力还有待提高。

工作原理:

  • 数据集选择: 研究者们精心挑选了六个数据集,覆盖了不同的上下文长度和标签空间。
  • 模型评估: 使用13个长上下文LLMs在这些基准测试上进行评估,考察它们在不同长度的输入下的表现。
  • 性能分析: 通过对比不同模型在不同数据集上的表现,研究者们分析了模型性能与上下文长度、标签位置分布等因素的关系。

具体应用场景:

  • 情感分类: LongICLBench中的GoEmotion数据集可以用来评估LLMs在理解和分类社交媒体评论中表达的细微情感的能力。
  • 意图识别: BANKING77数据集可以用来测试LLMs在理解客户服务查询意图方面的性能。
  • 关系抽取: TecRED和DialogRE数据集可以用来评估LLMs在识别文本中实体间关系和对话中实体对关系的能力。
声明: 猎游人 每天为你带来最新的游戏和硬件打折情报,帮你精心挑选值得玩的游戏,让您的钱花的更值!本站信息大部分来自于网友爆料,如果您发现了优质的游戏或好的价格,不妨爆料给我们吧(谢绝任何商业爆料)! 点此爆料

0条评论

Hi,您需要填写昵称和邮箱!
姓名 (必填)
邮箱 (必填)
网站

暂时木有评论