LongRoPE:显著扩展大语言模型(LLMs)的上下文窗口,达到了2048k个标记的惊人长度

分类:大语言模型 | 热度:231 ℃

来自微软的研究人员发布论文介绍了一种名为LongRoPE的技术,它能够显著扩展大语言模型(LLMs)的上下文窗口,达到了2048k个标记的惊人长度。这是首次实现这样的扩展,同时在保持原始短上下文窗口性能的同时,只需要1k步的微调,训练长度在256k以内。这项技术通过三个关键创新实现:首先,它识别并利用了位置插值中的两种非均匀性,为微调提供了更好的初始化,并在非微调场景中实现了8倍的扩展;其次,它引入了一种渐进式扩展策略,首先对256k长度的LLM进行微调,然后在微调后的扩展LLM上进行第二次位置插值,以实现2048k的上下文窗口;最后,它在8k长度上重新调整LongRoPE,以恢复短上下文窗口的性能。在LLaMA2和Mistral模型上进行的广泛实验表明,该方法在各种任务中都有效。通过LongRoPE扩展的模型保留了原始架构,并对位置嵌入进行了轻微修改,可以重用大多数现有的优化。代码将在GitHub上提供。

论文地址:https://arxiv.org/abs/2402.13753

GitHub地址:https://github.com/microsoft/LongRoPE

主要功能:

  • 扩展大型语言模型的上下文窗口,使其能够处理更长的文本序列。
  • 在不牺牲短上下文窗口性能的情况下,实现对长文本的理解和生成。

主要特点:

  • 利用位置嵌值中的非均匀性,通过进化搜索算法找到最优的缩放因子。
  • 渐进式扩展策略,先微调模型,再进行位置插值,以实现更长的上下文窗口。
  • 在扩展到极长上下文窗口后,能够调整模型以恢复在较短上下文窗口的性能。

工作原理:

  • 首先,通过进化搜索算法识别和利用位置插值中的非均匀性,为微调提供更好的初始化。
  • 然后,采用渐进式扩展策略,先对模型进行微调,使其适应更长的文本长度。
  • 最后,通过第二次位置插值,将微调后的模型扩展到2048k的上下文窗口。
  • 在扩展后,通过额外的搜索调整,恢复模型在原始短上下文窗口的性能。

具体应用场景:

  • 在需要处理大量文本数据的场景中,如文档摘要、长文本理解、信息检索等。
  • 在需要模型理解和生成长文本的应用中,如聊天机器人、内容创作辅助工具等。
  • 在研究和开发中,用于探索和改进大型语言模型在处理长文本时的性能和效率。
声明: 猎游人 每天为你带来最新的游戏和硬件打折情报,帮你精心挑选值得玩的游戏,让您的钱花的更值!本站信息大部分来自于网友爆料,如果您发现了优质的游戏或好的价格,不妨爆料给我们吧(谢绝任何商业爆料)! 点此爆料

0条评论

Hi,您需要填写昵称和邮箱!
姓名 (必填)
邮箱 (必填)
网站

暂时木有评论