可学习剪枝方法MaskLLM:通过在大语言模型中建立半结构化(或“N:M”)稀疏性来减少推理过程中的计算开销

分类:大语言模型 | 热度:32 ℃

英伟达和新加坡国立大学的研究人员推出可学习剪枝方法MaskLLM,旨在通过在大语言模型中建立半结构化(或“N:M”)稀疏性来减少推理过程中的计算开销。MaskLLM不采用新的重要性标准,而是通过Gumbel Softmax采样将N:M模式显式建模为可学习的分布。这种方法促进了对大规模数据集的端到端训练,并具有两个显著优势:1)高质量掩码 - 我们的方法能够有效扩展到大型数据集并学习准确的掩码;2)可转移性 - 掩码分布的概率建模使得稀疏性可以在不同领域或任务之间进行迁移学习。研究团队在各种LLMs上评估了MaskLLM,包括LLaMA-2、Nemotron-4和GPT-3,参数规模从843M到15B不等,实证结果显示,与最先进的方法相比,有显著改进。例如,领先的方法在Wikitext上的困惑度(PPL)达到10或更高,而密集模型的PPL为5.12,但MaskLLM仅通过学习掩码和冻结权重就达到了显著更低的6.72 PPL。此外,MaskLLM的可学习性允许为下游任务或领域定制掩码,以无损地应用2:4稀疏性。

  • 项目主页:https://vainf.github.io/maskllm-project-page
  • GitHub:https://github.com/NVlabs/MaskLLM

例如,你有一个超级聪明的机器人助手,它能够帮你写文章、回答问题甚至编写代码。但是,这个机器人的大脑(也就是支撑它运行的计算机程序)非常庞大和复杂,需要很多的能量和资源来运行。这就像是让一个巨大的机器来做简单的任务,比如用一台巨大的挖掘机去拿一根针。“MaskLLM”就是教这个机器人如何更高效地使用它的大脑。具体来说,就是通过一种叫做“半结构化稀疏性”的技术,让机器人在完成任务时,只使用它大脑中必要的部分,而关闭那些不需要的部分。这样,机器人既能完成复杂的任务,又能节省能量。

主要功能

MaskLLM的主要功能就是让大语言模型(比如上面提到的机器人助手)在推理(也就是完成任务)时,减少计算的负担。这就像是让机器人只使用它大脑中相关的部分来完成任务,而让其他部分休息。

主要特点

  1. 高质量面具学习:MaskLLM能够学习出高质量的“面具”(也就是稀疏模式),这些面具能够精确地指示机器人在处理不同任务时应该“激活”哪些部分的大脑。
  2. 可转移性:学习到的稀疏模式可以在不同的任务或领域之间转移,这意味着一旦机器人学会了一种有效的工作方式,它可以快速地将这种方式应用到其他类似的任务上。

工作原理

MaskLLM的工作原理可以分为以下几个步骤:

  1. 建模稀疏性:将大型语言模型的参数看作是一个大的矩阵,MaskLLM通过学习决定哪些参数是重要的,哪些可以暂时“关闭”。
  2. 概率视角:将“关闭”参数的过程看作是一个概率问题,每个参数被“关闭”的概率由一个学习到的分布决定。
  3. 随机采样:使用一种叫做“Gumbel Softmax”的技术,将上述概率分布转化为可以进行梯度下降优化的随机采样过程。
  4. 端到端训练:通过在大规模数据集上训练,让模型学习到在处理特定任务时应该“激活”哪些参数。

具体应用场景

  1. 搜索引擎:在搜索引擎的自动问答系统中,可以使用MaskLLM来优化语言模型,使其更快地给出搜索结果。
  2. 语音助手:在语音助手中,MaskLLM可以帮助模型更高效地理解用户的指令并做出回应。
  3. 自动翻译:在自动翻译系统中,MaskLLM可以优化模型,使其在翻译特定语言对时更加高效。
  4. 推荐系统:在推荐系统中,MaskLLM可以帮助模型更快地分析用户行为并提供个性化推荐。

总的来说,MaskLLM通过学习让大型语言模型在保持性能的同时减少计算资源的使用,这对于需要处理大量数据和任务的现代AI应用来说是非常有价值的。

声明: 猎游人 每天为你带来最新的游戏和硬件打折情报,帮你精心挑选值得玩的游戏,让您的钱花的更值!本站信息大部分来自于网友爆料,如果您发现了优质的游戏或好的价格,不妨爆料给我们吧(谢绝任何商业爆料)! 点此爆料

0条评论

Hi,您需要填写昵称和邮箱!
姓名 (必填)
邮箱 (必填)
网站

暂时木有评论