北京人工智能研究院和中国人民大学高瓴人工智能学院推出微调技术QLoRA,可以显著扩展大语言模型的上下文长度,特别是针对Llama-3-8B-Instruct模型,上下文长度是指模型在生成回答时能够考虑的输入信息的最大长度。开发者成功地将Llama-3模型的上下文长度从8,000个令牌(tokens)扩展到80,000个令牌,这个过程中只使用了3,500个由GPT-4生成的合成训练样本。例如,我们有一个包含整个图书馆信息的长文本数据集,我们希望构建一个系统,用户可以询问关于图书馆中任何书籍的详细信息。使用扩展上下文长度的Llama-3模型,系统能够理解和回忆书籍的内容,即使这些书籍非常长,也能提供准确的回答。这在传统的短上下文模型中是难以实现的,因为它们无法处理这么长的信息。
- 论文地址:https://arxiv.org/abs/2404.19553
- GitHub:https://github.com/FlagOpen/FlagEmbedding/blob/master/README_zh.md
- 模型地址:https://huggingface.co/namespace-Pt/Llama-3-8B-Instruct-80K-QLoRA
主要功能:
- 扩展上下文长度:将Llama-3模型的上下文长度扩展了十倍,从8K增至80K。
主要特点:
- 高效训练:整个训练周期非常高效,仅使用一个8xA800(80G)GPU机器,8小时内即可完成。
- 性能提升:在多种长上下文任务上表现出色,如NIHS、主题检索和长上下文语言理解。
- 保留短上下文能力:在扩展长上下文能力的同时,保留了原始模型处理短上下文的能力。
工作原理:
- QLoRA微调:使用QLoRA技术对模型的所有Q,K,V,O投影进行微调,并额外训练嵌入层。
- 合成训练数据:利用GPT-4生成3.5K个长上下文训练数据,覆盖单细节问答、多细节问答和传记摘要等任务。
- 长上下文任务:训练时,将同一上下文中的问答对组织成多轮对话,然后微调LLM以确保能够正确回答基于整个长上下文的输入问题。
具体应用场景:
- 长文本理解:在需要处理大量文本数据的应用中,如书籍摘要、长篇文章的内容理解等。
- 信息检索:在大量数据中检索特定信息,例如在长文档中查找特定细节或主题。
- 问答系统:构建能够处理长对话历史和上下文的问答系统。
0条评论