改善大语言模型在处理长文本输入时的信息利用问题,解决所谓的“中间丢失”(lost-in-the-middle)挑战

分类:大语言模型 | 热度:164 ℃

来自西安交通大学、微软和北京大学的研究人员发布关于如何改善大语言模型(LLMs)在处理长文本输入时的信息利用问题的论文,特别是解决所谓的“中间丢失”(lost-in-the-middle)挑战。这个问题指的是模型在处理长文本时,往往不能充分利用文本中间部分的信息。

例如: 假设我们有一个包含数千句子的长文档,我们需要模型回答一个关于文档中间部分的特定问题。在没有IN2训练的情况下,模型可能会忽略中间部分的信息,导致无法准确回答问题。而经过IN2训练的FILM-7B模型能够更好地理解和利用整个长文本中的信息,从而准确找到并回答问题。

论文还提出了三个探针任务(probing tasks)来测试FILM-7B模型在不同上下文风格(文档、代码、结构化数据)和信息检索模式(前向、后向和双向检索)中的表现。实验结果显示,FILM-7B能够在整个32K令牌的上下文窗口中稳健地检索信息。此外,FILM-7B在真实世界的长文本任务上的性能也有显著提升,同时保持了短文本任务上的表现。

主要功能:

  • IN2(INformation-INtensive)训练:一种数据驱动的方法,旨在让模型更好地利用长文本中的信息。

主要特点:

  1. 长文本问答数据集:通过合成长文本问答对,要求答案需要从长文本中的一个或多个短段落中提取信息。
  2. 信息密集型训练:训练模型以提高对长文本中任意位置信息的敏感性,包括对短段落内详细信息的感知以及从多个段落中整合和推理信息。

工作原理:

  • 数据构建:使用大量短文本段落合成长文本,并生成问答对,这些问答对需要模型从长文本中的特定段落提取信息。
  • 模型训练:在Mistral-7B模型上应用IN2训练,生成FILM-7B(Filling-the-Middle)模型,该模型在训练时明确教授模型长文本中的任何位置都可能包含关键信息。

具体应用场景:

  • 长文本问答:如在大量文档中寻找特定信息的问题。
  • 长文本摘要:对长篇文章或报告进行总结。
  • 多文档推理:在多个文档中进行信息检索和推理,以回答复杂问题。
声明: 猎游人 每天为你带来最新的游戏和硬件打折情报,帮你精心挑选值得玩的游戏,让您的钱花的更值!本站信息大部分来自于网友爆料,如果您发现了优质的游戏或好的价格,不妨爆料给我们吧(谢绝任何商业爆料)! 点此爆料

0条评论

Hi,您需要填写昵称和邮箱!
姓名 (必填)
邮箱 (必填)
网站

暂时木有评论