当前位置：首页 > 优惠 >大语言模型>文章详情

新型预训练方法“指令预训练（Instruction Pre-Training）”：通过在原始语料库中加入指令-响应对来增强传统的语言模型的预训练过程

推荐人：暴走AI| 商城: AI | 10个月前 (06-22)| 分类：大语言模型 | 热度：173 ℃

已关闭评论

新型预训练方法“指令预训练（Instruction Pre-Training）”：通过在原始语料库中加入指令-响应对来增强传统的语言模型的预训练过程

微软研究院和清华大学的研究人员推出一种新型的预训练方法，名为“指令预训练”（Instruction Pre-Training），这种方法通过在原始语料库中加入指令-响应对来增强传统的语言模型（LMs）的预训练过程。指令-响应对是由一个高效的指令合成器生成的，该合成器基于开源模型构建。论文的实验结果表明，指令预训练在多种任务上都能取得良好的性能，尤其是在持续预训练中，即使是较小的模型（如Llama3-8B）也能通过这种方法达到与大型模型（如Llama3-70B）相当的性能水平。这表明指令预训练是一种有效的提升语言模型泛化能力和领域适应性的方法。

GitHub：https://github.com/microsoft/LMOps
模型：https://huggingface.co/instruction-pretrain

例如，我们有一个大型的文本语料库，里面包含了关于历史、科学、文化等多个领域的内容。使用传统的预训练方法，我们会直接在这些原始文本上训练语言模型。但是，指令预训练方法会进一步在这些文本中加入特定的指令和对应的响应，例如，在一段关于历史事件的文本中加入问题“这场战争是何时开始的？”以及相应的答案“这场战争开始于1941年。”这样的指令-响应对可以帮助模型更好地理解和学习文本中的信息，并在后续的任务中更好地泛化。