来自微软的研究人员发布论文介绍了一种名为LongRoPE的技术,它能够显著扩展大语言模型(LLMs)的上下文窗口,达到了2048k个标记的惊人长度。这是首次实现这样的扩展,同时在保持原始短上下文窗口性能的同时,只需要1k步的微调,训练长度在256k以内。这项技术通过三个关键创新实现:首先,它识别并利用了位置插值中的两种非均匀性,为微调提供了更好的初始化,并在非微调场景中实现了8倍的扩展;其次,它引入了一种渐进式扩展策略,首先对256k长度的LLM进行微调,然后在微调后的扩展LLM上进行第二次位置插值,以实现2048k的上下文窗口;最后,它在8k长度上重新调整LongRoPE,以恢复短上下文窗口的性能。在LLaMA2和Mistral模型上进行的广泛实验表明,该方法在各种任务中都有效。通过LongRoPE扩展的模型保留了原始架构,并对位置嵌入进行了轻微修改,可以重用大多数现有的优化。代码将在GitHub上提供。
论文地址:https://arxiv.org/abs/2402.13753
GitHub地址:https://github.com/microsoft/LongRoPE
主要功能:
- 扩展大型语言模型的上下文窗口,使其能够处理更长的文本序列。
- 在不牺牲短上下文窗口性能的情况下,实现对长文本的理解和生成。
主要特点:
- 利用位置嵌值中的非均匀性,通过进化搜索算法找到最优的缩放因子。
- 渐进式扩展策略,先微调模型,再进行位置插值,以实现更长的上下文窗口。
- 在扩展到极长上下文窗口后,能够调整模型以恢复在较短上下文窗口的性能。
工作原理:
- 首先,通过进化搜索算法识别和利用位置插值中的非均匀性,为微调提供更好的初始化。
- 然后,采用渐进式扩展策略,先对模型进行微调,使其适应更长的文本长度。
- 最后,通过第二次位置插值,将微调后的模型扩展到2048k的上下文窗口。
- 在扩展后,通过额外的搜索调整,恢复模型在原始短上下文窗口的性能。
具体应用场景:
- 在需要处理大量文本数据的场景中,如文档摘要、长文本理解、信息检索等。
- 在需要模型理解和生成长文本的应用中,如聊天机器人、内容创作辅助工具等。
- 在研究和开发中,用于探索和改进大型语言模型在处理长文本时的性能和效率。
0条评论