当前位置：首页 > 优惠 >大语言模型>文章详情

LongRoPE：显著扩展大语言模型（LLMs）的上下文窗口，达到了2048k个标记的惊人长度

推荐人：暴走AI| 商城: AI | 1年前 (2024-02-22)| 分类：大语言模型 | 热度：379 ℃

已关闭评论

LongRoPE：显著扩展大语言模型（LLMs）的上下文窗口，达到了2048k个标记的惊人长度

AI

来自微软的研究人员发布论文介绍了一种名为LongRoPE的技术，它能够显著扩展大语言模型（LLMs）的上下文窗口，达到了2048k个标记的惊人长度。这是首次实现这样的扩展，同时在保持原始短上下文窗口性能的同时，只需要1k步的微调，训练长度在256k以内。这项技术通过三个关键创新实现：首先，它识别并利用了位置插值中的两种非均匀性，为微调提供了更好的初始化，并在非微调场景中实现了8倍的扩展；其次，它引入了一种渐进式扩展策略，首先对256k长度的LLM进行微调，然后在微调后的扩展LLM上进行第二次位置插值，以实现2048k的上下文窗口；最后，它在8k长度上重新调整LongRoPE，以恢复短上下文窗口的性能。在LLaMA2和Mistral模型上进行的广泛实验表明，该方法在各种任务中都有效。通过LongRoPE扩展的模型保留了原始架构，并对位置嵌入进行了轻微修改，可以重用大多数现有的优化。代码将在GitHub上提供。

论文地址：https://arxiv.org/abs/2402.13753

GitHub地址：https://github.com/microsoft/LongRoPE

主要功能：

扩展大型语言模型的上下文窗口，使其能够处理更长的文本序列。
在不牺牲短上下文窗口性能的情况下，实现对长文本的理解和生成。

主要特点：

利用位置嵌值中的非均匀性，通过进化搜索算法找到最优的缩放因子。
渐进式扩展策略，先微调模型，再进行位置插值，以实现更长的上下文窗口。
在扩展到极长上下文窗口后，能够调整模型以恢复在较短上下文窗口的性能。

工作原理：

首先，通过进化搜索算法识别和利用位置插值中的非均匀性，为微调提供更好的初始化。
然后，采用渐进式扩展策略，先对模型进行微调，使其适应更长的文本长度。
最后，通过第二次位置插值，将微调后的模型扩展到2048k的上下文窗口。
在扩展后，通过额外的搜索调整，恢复模型在原始短上下文窗口的性能。

具体应用场景：

在需要处理大量文本数据的场景中，如文档摘要、长文本理解、信息检索等。
在需要模型理解和生成长文本的应用中，如聊天机器人、内容创作辅助工具等。
在研究和开发中，用于探索和改进大型语言模型在处理长文本时的性能和效率。

大语言模型

声明： 猎游人每天为你带来最新的游戏和硬件打折情报，帮你精心挑选值得玩的游戏，让您的钱花的更值！本站信息大部分来自于网友爆料，如果您发现了优质的游戏或好的价格，不妨爆料给我们吧（谢绝任何商业爆料）！点此爆料

上一篇： Meta推出多模态开放数据集AEA，通过Project Aria眼镜收集

下一篇： CapCut（剪映海外版）推出视频生成功能，可以通过文本生成4秒的视频

0条评论

暂时木有评论

猜你喜欢

查看更多商品

我要爆料我的收藏顶部

© Copyright2019-2024 | 版权所有：猎游人| 皖ICP备18025588号-1

快速登录