来自蒙特利尔大学、魁北克人工智能研究所、华为诺亚方舟实验室的研究人员发布论文介绍了一种名为RESONANCE RoPE(共振旋转位置编码)的技术,它旨在改善大语言模型(LLMs)在处理长文本时的性能。在训练时,模型通常处理较短的文本序列,但在实际应用中可能需要处理更长的文本,这就是所谓的“训练短-测试长”(TSTL)场景。在这种情况下,模型可能会在处理超出训练时见过的序列长度时遇到困难。为了解决这个问题,作者提出了RESONANCE RoPE,这是一种改进的旋转位置编码(RoPE)方法,它通过调整RoPE特征的插值来缩小TSTL场景中的泛化差距。
GitHub:https://github.com/sheryc/resonance_rope
论文地址:https://arxiv.org/abs/2403.00071
主要功能:
- 改善长文本处理能力: RESONANCE RoPE通过优化RoPE特征的插值,帮助模型更好地处理长文本序列。
- 提高模型泛化能力: 在TSTL场景中,RESONANCE RoPE能够减少模型在未见过的长序列位置(OOD)上的泛化误差。
主要特点:
- 无需额外计算成本: RESONANCE RoPE在训练或推理时不增加额外的在线计算成本。
- 兼容性: 该方法可以与现有的RoPE扩展方法(如YaRN)结合使用,进一步提升性能。
工作原理:
- RoPE特征调整: RESONANCE RoPE通过调整RoPE特征的频率,使得模型在处理长序列时能够更好地泛化。
- 特征插值优化: 该方法专注于减少RoPE特征在预训练序列长度之外的插值,从而减少特征间隙。
具体应用场景:
- 长文本生成和理解: 在需要处理长文本的应用中,如自动摘要、对话系统和文档分析,RESONANCE RoPE可以帮助模型更准确地理解和生成文本。
- 语言模型微调: 在微调大型语言模型以适应特定任务时,RESONANCE RoPE可以提高模型在长文本上的表现。
论文还介绍了一个名为POSGEN的新合成基准测试,它专门设计用于在TSTL场景中评估位置嵌入。POSGEN通过控制生成令牌的难度,帮助研究者更精细地分析模型在处理长文本时的表现。通过在POSGEN和大型语言模型上的实验,作者证明了RESONANCE RoPE在识别OOD位置和提高长文本应用性能方面的优势。
0条评论