LLaMA3-Quantization:采用低比特权量化压缩LLAMA3模型大小,减少内存和计算需求,使模型能够在资源受限的设备上运行

分类:大语言模型 | 热度:130 ℃

由香港大学、北京航空航天大学和苏黎世联邦理工学院的研究人员推出LLaMA3-Quantization,其采用低比特权量化(low-bit quantization)压缩LLAMA3模型大小,减少内存和计算需求,使模型能够在资源受限的设备上运行。LLAMA3是Meta公司发布的一种大语言模型,它在大量数据上进行了预训练,表现出了卓越的性能。

  • 模型地址:https://huggingface.co/LLMQ
  • GitHub:https://github.com/Macaronlin/LLaMA3-Quantization

主要功能和特点:

  1. 量化评估:研究了10种不同的后训练量化(Post-Training Quantization, PTQ)和LoRA微调(LoRA-Finetuning, LoRA-FT)方法,覆盖了从1到8位的不同比特宽度。
  2. 性能比较:通过在多种数据集上评估LLAMA3模型的量化性能,揭示了在低比特权量化下的性能表现。
  3. 资源限制下的部署:探讨了在资源受限情况下部署LLAMA3模型的可能性和挑战。
  4. 公开项目和模型:为了促进研究和量化技术的更广泛应用,作者公开了他们的项目和量化后的LLAMA3模型。

工作原理:

  • 后训练量化(PTQ):这是一种在模型训练完成后应用的技术,通过减少模型权重和激活的比特数来压缩模型。
  • LoRA-FineTuning(LoRA-FT):这是一种微调技术,通过在量化模型上进行低秩适应来提高量化后模型的性能。
  • 量化方法:包括Round-To-Nearest(RTN)、GPTQ、AWQ、SmoothQuant、PB-LLM、QuIP、DB-LLM和BiLLM等。
  • 评估数据集:使用WikiText2、C4、PTB、CommonSenseQA数据集(PIQA、ARC-e、ARC-c、HellaSwag、Winogrande)和MMLU基准进行评估。

具体应用场景:

  • 移动设备:在智能手机或平板电脑上部署大型语言模型,进行语言生成、翻译或问答等任务。
  • 物联网(IoT):在资源受限的IoT设备上集成语言模型,用于本地化数据处理和交互。
  • 嵌入式系统:在嵌入式系统中使用量化的LLM进行实时语音识别或自然语言处理任务。
声明: 猎游人 每天为你带来最新的游戏和硬件打折情报,帮你精心挑选值得玩的游戏,让您的钱花的更值!本站信息大部分来自于网友爆料,如果您发现了优质的游戏或好的价格,不妨爆料给我们吧(谢绝任何商业爆料)! 点此爆料

0条评论

Hi,您需要填写昵称和邮箱!
姓名 (必填)
邮箱 (必填)
网站

暂时木有评论